Função “corr”
A função corr()
do Pandas é usada para calcular a correlação entre colunas (variáveis) em um DataFrame. A correlação é uma medida estatística que quantifica a relação entre duas variáveis, indicando se elas tendem a se mover juntas (correlação positiva), se movem em direções opostas (correlação negativa) ou se não há relação aparente (correlação próxima a zero).
Sintaxe
DataFrame.corr(method='pearson', min_periods=1)
Parâmetros
-
method
(opcional): O método de cálculo de correlação a ser usado. Os métodos comuns são: -
'pearson'
(padrão): Calcula a correlação de Pearson, que mede a correlação linear entre variáveis contínuas. -
'kendall'
: Calcula a correlação de Kendall, que é uma medida de correlação não paramétrica adequada para dados classificados ou ordinais. -
'spearman'
: Calcula a correlação de Spearman, outra medida não paramétrica que é adequada para dados classificados ou ordinais. -
min_periods
(opcional): O número mínimo de observações não nulas necessárias para calcular uma correlação. O padrão é 1, o que significa que uma correlação será calculada mesmo se houver apenas uma observação não nula.
Retorno
- Um DataFrame de correlação, onde os índices e as colunas são os nomes das variáveis do DataFrame original, e os valores são os coeficientes de correlação entre essas variáveis. A diagonal principal do DataFrame conterá 1s, pois uma variável sempre tem uma correlação perfeita com ela mesma.
Exemplo
import pandas as pd
# Criando um DataFrame de exemplo
data = {
'A': [1, 2, 3, 4, 5],
'B': [2, 3, 4, 5, 6],
'C': [5, 5, 5, 5, 5]
}
df = pd.DataFrame(data)
# Calculando a correlação de Pearson entre as colunas
correlation_matrix = df.corr()
print(correlation_matrix)
Neste exemplo, criamos um DataFrame df
com três colunas (A, B e C) e calculamos a matriz de correlação usando o método padrão de correlação de Pearson. A matriz resultante, correlation_matrix
, será:
A B C
A 1.0 1.0 0.0
B 1.0 1.0 0.0
C 0.0 0.0 1.0
Observe que as variáveis A e B têm uma correlação perfeita de 1.0 entre si, pois são linearmente dependentes, enquanto a variável C não está correlacionada com A ou B, como indicado por uma correlação próxima a zero.
A função corr()
é amplamente usada na análise de dados para explorar relações entre variáveis e entender como elas estão relacionadas umas com as outras. É útil para identificar dependências ou tendências em um conjunto de dados.