Etapas de aprendizagem do algoritmo de Naive Bayes
Para entendermos como funciona a aprendizagem de algoritmos de Naïve Bayes, considerar o exemplo abaixo de classificação para prever o risco de crédito de uma pessoa com base em alguns atributos, como idade, renda e histórico de crédito. Suponha que temos a seguinte base de dados:
ID | Idade | Renda | Histórico de Crédito | Risco de Crédito |
---|---|---|---|---|
1 | Jovem | Alta | Bom | Baixo |
2 | Jovem | Baixa | Bom | Baixo |
3 | Jovem | Baixa | Ruim | Alto |
4 | Média | Baixa | Ruim | Alto |
5 | Média | Baixa | Ruim | Alto |
6 | Média | Alta | Bom | Baixo |
7 | Adulto | Alta | Bom | Baixo |
8 | Adulto | Alta | Muito Bom | Baixo |
9 | Adulto | Baixa | Muito Bom | Baixo |
10 | Idoso | Baixa | Muito Bom | Baixo |
11 | Idoso | Alta | Bom | Baixo |
12 | Idoso | Alta | Muito Bom | Baixo |
13 | Jovem | Baixa | Bom | Baixo |
14 | Jovem | Alta | Muito Bom | Baixo |
15 | Média | Baixa | Bom | Baixo |
Passo 1: Contagem das frequências
Primeiro, contamos as frequências de cada valor dos atributos para cada classe de risco de crédito:
-
Contagem das frequências do atributo “Idade” para cada classe de risco de crédito:
Idade Baixo Alto Jovem 5 1 Média 3 2 Adulto 1 2 Idoso 1 2 -
Contagem das frequências do atributo “Renda” para cada classe de risco de crédito:
Renda Baixo Alto Baixa 5 1 Alta 2 4 -
Contagem das frequências do atributo “Histórico de Crédito” para cada classe de risco de crédito:
Histórico de Crédito Baixo Alto Bom 2 3 Ruim 3 1 Muito Bom 2 1
Passo 2: Cálculo das probabilidades
Em seguida, calculamos as probabilidades de cada valor dos atributos para cada classe de risco de crédito. Para isso, utilizamos a frequência dos valores e a quantidade total de amostras para cada classe.
Vamos calcular a probabilidade de cada valor dos atributos para cada classe de risco de crédito:
Probabilidades Condicionais para Baixo Risco:
-
Probabilidade de ser Jovem:
-
Probabilidade de ser Média:
-
Probabilidade de ser Adulto:
-
Probabilidade de ser Idoso:
-
Probabilidade de ter Renda Alta:
-
Probabilidade de ter Renda Baixa:
-
Probabilidade de ter Bom Histórico de Crédito:
-
Probabilidade de ter Ruim Histórico de Crédito:
Probabilidades Condicionais para Alto Risco:
-
Probabilidade de ser Jovem:
-
Probabilidade de ser Média:
-
Probabilidade de ser Adulto:
-
Probabilidade de ser Idoso:
-
Probabilidade de ter Renda Alta:
-
Probabilidade de ter Renda Baixa:
-
Probabilidade de ter Bom Histórico de Crédito:
-
Probabilidade de ter Muito Bom Histórico de Crédito:
Passo 3: Classificação
No passo de classificação do algoritmo de Naive Bayes, usamos o Teorema de Bayes para calcular a probabilidade de um exemplo pertencer a cada classe e, em seguida, atribuímos o exemplo à classe com a maior probabilidade.
Suponha que temos um exemplo com os seguintes atributos:
-
Idade: Média
-
Renda: Baixa
-
Histórico de Crédito: Bom
Vamos calcular a probabilidade para cada classe, considerando as probabilidades condicionais que calculamos anteriormente:
Para Baixo Risco:
Para Alto Risco:
Passo 4: Escolha da classe com maior probabilidade
Agora, comparamos as probabilidades para cada classe e concluímos que o exemplo tem maior probabilidade de ser classificado como “Baixo Risco” tendo uma probabilidade de aproximadamente 0.0903 ou 66%.
Portanto, de acordo com o algoritmo de Naive Bayes, a previsão é que o exemplo pertence à classe “Baixo Risco”.