Introdução ao algoritmo de regressão linear

A regressão linear é uma técnica estatística usada para modelar a relação entre uma variável dependente (também chamada de variável de resposta) e uma ou mais variáveis independentes (também chamadas de variáveis explicativas ou preditoras). A principal ideia por trás da regressão linear é encontrar a melhor linha reta (ou hiperplano, em casos de múltiplas variáveis independentes) que representa a relação entre essas variáveis, de modo a fazer previsões ou inferências.

A regressão linear é frequentemente utilizada para os seguintes propósitos:

  1. Previsão: Ela pode ser usada para prever o valor de uma variável dependente com base nos valores das variáveis independentes. Por exemplo, você pode usar a regressão linear para prever o preço de uma casa com base em características como tamanho, número de quartos, localização, etc.

  2. Análise de relações: Ela ajuda a entender a relação entre as variáveis independentes e dependentes. Por exemplo, você pode investigar como a renda está relacionada com a idade dos indivíduos em um conjunto de dados.

  3. Identificação de variáveis importantes: A regressão linear pode ser usada para determinar quais variáveis independentes têm o maior impacto na variável dependente. Isso pode ser útil em estudos de pesquisa e modelagem.

A forma mais simples de regressão linear é a “regressão linear simples”, que envolve apenas duas variáveis: uma variável independente e uma variável dependente. A relação entre essas variáveis é modelada como uma linha reta, representada pela equação:

Onde:

  • é a variável dependente que estamos tentando prever.
  • é a variável independente.
  • é o intercepto da linha, que representa o valor de quando é igual a zero.
  • é o coeficiente de inclinação, que representa a mudança em para uma mudança unitária em .
  • é o erro aleatório, que representa a variabilidade não explicada pelo modelo.

A tarefa na regressão linear é encontrar os valores de e que melhor se ajustam aos dados, ou seja, minimizam o erro quadrático médio ou Mean Square Error (MSE) definido pela fórmula:

Onde:

  • é o número de observações.
  • é o valor real da variável dependente para a observação .
  • é a previsão do modelo para a observação .

MSE é a abordagem mais comum para o cálculo do erro nas tarefas de regressão linear, mas existem outras técnicas com a mesma finalidade como por exemplo o Absolute Mean Error.

Os ajustes dos parâmetros é feito até que o erro seja o mínimo possível e para isso são utilizados algumas técnicas já vistas anteriormente como o gradiente descente e matriz de design (design matrix). Em geral é adotado o algoritmo de gradiente descente por apresentar o melhor desempenho em amostras com muitos atributos. Já o design matrix é recomendado para bases de dados com poucos atributos, pois a inversão de matrizes tem um alto custo computacional.

Além da regressão linear simples, há também a “regressão linear múltipla”, que envolve mais de uma variável independente. A equação para a regressão linear múltipla é uma extensão da regressão simples:

Onde:

  • são as variáveis independentes.
  • são os coeficientes que representam o impacto das variáveis independentes em .

A regressão linear é uma técnica poderosa, mas também tem suas limitações. Ela assume que a relação entre as variáveis é linear, o que nem sempre é o caso na prática. Além disso, é sensível a valores atípicos (outliers) e pressupõe que os erros sejam independentes e normalmente distribuídos. Portanto, é importante avaliar se a regressão linear é apropriada para um conjunto de dados específico antes de aplicá-la. Existem também variantes da regressão linear, como a regressão linear robusta e a regressão linear generalizada, que lidam com algumas dessas limitações.