Covariância, coeficiente de correlação e determinação

A covariância, o coeficiente de correlação e o coeficiente de determinação são conceitos estatísticos relacionados que descrevem a relação entre duas variáveis. Vamos entender cada um deles:

  1. Covariância:

    A covariância mede o grau de interdependência entre duas variáveis. Ela indica se as duas variáveis tendem a aumentar ou diminuir juntas. A fórmula para calcular a covariância entre duas variáveis, X e Y, em um conjunto de dados é a seguinte:

    Onde:

    • é o número de observações.
    • e são os valores das variáveis X e Y para a i-ésima observação.
    • e são as médias das variáveis X e Y, respectivamente.

    A covariância pode ser positiva, negativa ou zero.

    • Positiva: Isso significa que quando uma variável aumenta, a outra também tende a aumentar.
    • Negativa: Quando uma variável aumenta, a outra tende a diminuir.
    • Zero: Não há relação linear aparente entre as variáveis, ou seja, são independentes.
  2. Coeficiente de Correlação (Correlação):

    O coeficiente de correlação é uma medida padronizada que quantifica a força e a direção da relação linear entre duas variáveis. O coeficiente de correlação mais comum é o coeficiente de correlação de Pearson (r). O valor de r varia entre -1 e 1, onde:

    • r = 1 indica uma correlação positiva perfeita (à medida que X aumenta, Y aumenta linearmente).
    • r = -1 indica uma correlação negativa perfeita (à medida que X aumenta, Y diminui linearmente).
    • r = 0 indica que não há correlação linear entre as variáveis.

    A fórmula para calcular o coeficiente de correlação de Pearson é:

    Onde:

    • e são os desvios padrão das variáveis X e Y, respectivamente.

    A tabela a seguir mostra a interpretação do coeficiente de correção:

    CorrelaçãoInterpretação
    0.00 a 0.19 ou 0.00 a -0.19Correlação bem fraca
    0.20 a 0.39 ou -0.20 a -0.39Correlação fraca
    0.40 a 0.69 ou -0.40 a -0.69Correlação moderada
    0.70 a 0.89 ou -0.70 a -0.89Correlação forte
    0.90 a 1.00 ou -0.90 a -1.00Correlação muito forte
  3. Coeficiente de Determinação (R-squared):

    O coeficiente de determinação, comumente representado como , é uma medida que indica a proporção da variabilidade total em uma variável dependente (Y) que é explicada pelas variáveis independentes (X) em um modelo de regressão linear. Em outras palavras, ele mede o quanto o modelo se ajusta aos dados.

    O varia entre 0 e 1, onde:

    • indica que o modelo não explica nenhuma variação na variável dependente.
    • indica que o modelo explica toda a variação na variável dependente.

    O é calculado como o quadrado do coeficiente de correlação de Pearson (r), o que significa que ele representa a proporção da variabilidade em Y que é compartilhada com X.

    Um valor elevado de (próximo a 1) indica que o modelo de regressão linear se ajusta bem aos dados, enquanto um valor baixo (próximo a 0) sugere que o modelo não é adequado para explicar a variabilidade em Y com base em X.

Em resumo, a covariância mede a relação linear bruta entre duas variáveis, o coeficiente de correlação quantifica essa relação em uma escala padronizada, e o coeficiente de determinação indica o quão bem um modelo se ajusta aos dados, expresso como a proporção da variabilidade explicada. Essas medidas são fundamentais para entender as relações entre variáveis em análises estatísticas e de regressão.

Vale lembrar que a correlação não é causa, ou seja, mesmo que duas variáveis estejam correlacionadas isso não quer dizer que não necessariamente uma é a causa da outra e vice versa. Veja a figura abaixo:

Nesse exemplo, mesmo que as variáveis “afogamento em piscina” e “aparição do Nicolas Cage nos filmes” estejam correlacionados, o número de afogamento em piscina não é explicado pelo número de filmes com a aparição de Nicolas Cade. Dessa forma, é importante realizar uma análise criteriosa antes de tirar alguma conclusão desse tipo.