Introdução ao algoritmo de regressão linear
A regressão linear é uma técnica estatística usada para modelar a relação entre uma variável dependente (também chamada de variável de resposta) e uma ou mais variáveis independentes (também chamadas de variáveis explicativas ou preditoras). A principal ideia por trás da regressão linear é encontrar a melhor linha reta (ou hiperplano, em casos de múltiplas variáveis independentes) que representa a relação entre essas variáveis, de modo a fazer previsões ou inferências.
A regressão linear é frequentemente utilizada para os seguintes propósitos:
-
Previsão: Ela pode ser usada para prever o valor de uma variável dependente com base nos valores das variáveis independentes. Por exemplo, você pode usar a regressão linear para prever o preço de uma casa com base em características como tamanho, número de quartos, localização, etc.
-
Análise de relações: Ela ajuda a entender a relação entre as variáveis independentes e dependentes. Por exemplo, você pode investigar como a renda está relacionada com a idade dos indivíduos em um conjunto de dados.
-
Identificação de variáveis importantes: A regressão linear pode ser usada para determinar quais variáveis independentes têm o maior impacto na variável dependente. Isso pode ser útil em estudos de pesquisa e modelagem.
A forma mais simples de regressão linear é a “regressão linear simples”, que envolve apenas duas variáveis: uma variável independente e uma variável dependente. A relação entre essas variáveis é modelada como uma linha reta, representada pela equação:
Onde:
é a variável dependente que estamos tentando prever. é a variável independente. é o intercepto da linha, que representa o valor de quando é igual a zero. é o coeficiente de inclinação, que representa a mudança em para uma mudança unitária em . é o erro aleatório, que representa a variabilidade não explicada pelo modelo.
A tarefa na regressão linear é encontrar os valores de
Onde:
é o número de observações. é o valor real da variável dependente para a observação . é a previsão do modelo para a observação .
MSE é a abordagem mais comum para o cálculo do erro nas tarefas de regressão linear, mas existem outras técnicas com a mesma finalidade como por exemplo o Absolute Mean Error.
Os ajustes dos parâmetros é feito até que o erro seja o mínimo possível e para isso são utilizados algumas técnicas já vistas anteriormente como o gradiente descente e matriz de design (design matrix). Em geral é adotado o algoritmo de gradiente descente por apresentar o melhor desempenho em amostras com muitos atributos. Já o design matrix é recomendado para bases de dados com poucos atributos, pois a inversão de matrizes tem um alto custo computacional.
Além da regressão linear simples, há também a “regressão linear múltipla”, que envolve mais de uma variável independente. A equação para a regressão linear múltipla é uma extensão da regressão simples:
Onde:
são as variáveis independentes. são os coeficientes que representam o impacto das variáveis independentes em .
A regressão linear é uma técnica poderosa, mas também tem suas limitações. Ela assume que a relação entre as variáveis é linear, o que nem sempre é o caso na prática. Além disso, é sensível a valores atípicos (outliers) e pressupõe que os erros sejam independentes e normalmente distribuídos. Portanto, é importante avaliar se a regressão linear é apropriada para um conjunto de dados específico antes de aplicá-la. Existem também variantes da regressão linear, como a regressão linear robusta e a regressão linear generalizada, que lidam com algumas dessas limitações.