Função describe

A função describe() é uma das funções mais úteis e poderosas da biblioteca Python pandas para análise de dados. Ela é aplicada em um DataFrame e fornece um resumo estatístico das principais informações dos dados numéricos presentes no DataFrame.

Quando você chama a função describe() em um DataFrame, ela calcula várias estatísticas descritivas para cada coluna numérica do DataFrame, tais como:

  • count: Número de valores válidos (não nulos) na coluna.

  • mean: Média dos valores da coluna.

  • std: Desvio padrão dos valores da coluna.

  • min: Valor mínimo presente na coluna.

  • 25%: Primeiro quartil dos valores da coluna (25% dos dados estão abaixo deste valor).

  • 50%: Mediana dos valores da coluna (ou segundo quartil).

  • 75%: Terceiro quartil dos valores da coluna (75% dos dados estão abaixo deste valor).

  • max: Valor máximo presente na coluna.

Essas estatísticas são úteis para entender a distribuição dos dados e identificar valores discrepantes (outliers) em um DataFrame.

Exemplo:

import pandas as pd
 
# Criando um DataFrame de exemplo
data = {'Idade': [25, 30, 22, 28, 35, 21, 27, 29, 31, 26],
        'Altura': [1.70, 1.65, 1.80, 1.75, 1.68, 1.72, 1.69, 1.78, 1.73, 1.67],
        'Peso': [68, 75, 60, 70, 63, 68, 72, 69, 77, 66]}
 
df = pd.DataFrame(data)
 
# Aplicando a função describe()
descricao = df.describe()
 
print(descricao)

Saída:

IdadeAlturaPeso
count10.00000010.00000010.000000
mean27.6000001.71500068.000000
std3.1374840.0434895.196152
min21.0000001.65000060.000000
25%25.2500001.68500066.250000
50%27.5000001.71500068.500000
75%29.7500001.73750071.750000
max35.0000001.80000077.000000

No exemplo acima, a função describe() forneceu informações estatísticas como contagem, média, desvio padrão, valores mínimo e máximo, bem como os quartis para as colunas numéricas “Idade”, “Altura” e “Peso” do DataFrame. Essas estatísticas ajudam a ter uma visão geral dos dados e podem ser muito úteis para análises exploratórias iniciais dos dados.