Função describe
A função describe()
é uma das funções mais úteis e poderosas da biblioteca Python pandas para análise de dados. Ela é aplicada em um DataFrame e fornece um resumo estatístico das principais informações dos dados numéricos presentes no DataFrame.
Quando você chama a função describe()
em um DataFrame, ela calcula várias estatísticas descritivas para cada coluna numérica do DataFrame, tais como:
-
count: Número de valores válidos (não nulos) na coluna.
-
mean: Média dos valores da coluna.
-
std: Desvio padrão dos valores da coluna.
-
min: Valor mínimo presente na coluna.
-
25%: Primeiro quartil dos valores da coluna (25% dos dados estão abaixo deste valor).
-
50%: Mediana dos valores da coluna (ou segundo quartil).
-
75%: Terceiro quartil dos valores da coluna (75% dos dados estão abaixo deste valor).
-
max: Valor máximo presente na coluna.
Essas estatísticas são úteis para entender a distribuição dos dados e identificar valores discrepantes (outliers) em um DataFrame.
Exemplo:
import pandas as pd
# Criando um DataFrame de exemplo
data = {'Idade': [25, 30, 22, 28, 35, 21, 27, 29, 31, 26],
'Altura': [1.70, 1.65, 1.80, 1.75, 1.68, 1.72, 1.69, 1.78, 1.73, 1.67],
'Peso': [68, 75, 60, 70, 63, 68, 72, 69, 77, 66]}
df = pd.DataFrame(data)
# Aplicando a função describe()
descricao = df.describe()
print(descricao)
Saída:
Idade | Altura | Peso | |
---|---|---|---|
count | 10.000000 | 10.000000 | 10.000000 |
mean | 27.600000 | 1.715000 | 68.000000 |
std | 3.137484 | 0.043489 | 5.196152 |
min | 21.000000 | 1.650000 | 60.000000 |
25% | 25.250000 | 1.685000 | 66.250000 |
50% | 27.500000 | 1.715000 | 68.500000 |
75% | 29.750000 | 1.737500 | 71.750000 |
max | 35.000000 | 1.800000 | 77.000000 |
No exemplo acima, a função describe()
forneceu informações estatísticas como contagem, média, desvio padrão, valores mínimo e máximo, bem como os quartis para as colunas numéricas “Idade”, “Altura” e “Peso” do DataFrame. Essas estatísticas ajudam a ter uma visão geral dos dados e podem ser muito úteis para análises exploratórias iniciais dos dados.