Etapas de aprendizagem do algoritmo de Naive Bayes

Para entendermos como funciona a aprendizagem de algoritmos de Naïve Bayes, considerar o exemplo abaixo de classificação para prever o risco de crédito de uma pessoa com base em alguns atributos, como idade, renda e histórico de crédito. Suponha que temos a seguinte base de dados:

IDIdadeRendaHistórico de CréditoRisco de Crédito
1JovemAltaBomBaixo
2JovemBaixaBomBaixo
3JovemBaixaRuimAlto
4MédiaBaixaRuimAlto
5MédiaBaixaRuimAlto
6MédiaAltaBomBaixo
7AdultoAltaBomBaixo
8AdultoAltaMuito BomBaixo
9AdultoBaixaMuito BomBaixo
10IdosoBaixaMuito BomBaixo
11IdosoAltaBomBaixo
12IdosoAltaMuito BomBaixo
13JovemBaixaBomBaixo
14JovemAltaMuito BomBaixo
15MédiaBaixaBomBaixo

Passo 1: Contagem das frequências

Primeiro, contamos as frequências de cada valor dos atributos para cada classe de risco de crédito:

  • Contagem das frequências do atributo “Idade” para cada classe de risco de crédito:

    IdadeBaixoAlto
    Jovem51
    Média32
    Adulto12
    Idoso12
  • Contagem das frequências do atributo “Renda” para cada classe de risco de crédito:

    RendaBaixoAlto
    Baixa51
    Alta24
  • Contagem das frequências do atributo “Histórico de Crédito” para cada classe de risco de crédito:

    Histórico de CréditoBaixoAlto
    Bom23
    Ruim31
    Muito Bom21

Passo 2: Cálculo das probabilidades

Em seguida, calculamos as probabilidades de cada valor dos atributos para cada classe de risco de crédito. Para isso, utilizamos a frequência dos valores e a quantidade total de amostras para cada classe.

Vamos calcular a probabilidade de cada valor dos atributos para cada classe de risco de crédito:

Probabilidades Condicionais para Baixo Risco:

  • Probabilidade de ser Jovem:

  • Probabilidade de ser Média: é

  • Probabilidade de ser Adulto:

  • Probabilidade de ser Idoso:

  • Probabilidade de ter Renda Alta:

  • Probabilidade de ter Renda Baixa:

  • Probabilidade de ter Bom Histórico de Crédito:

  • Probabilidade de ter Ruim Histórico de Crédito:

Probabilidades Condicionais para Alto Risco:

  • Probabilidade de ser Jovem:

  • Probabilidade de ser Média: é

  • Probabilidade de ser Adulto:

  • Probabilidade de ser Idoso:

  • Probabilidade de ter Renda Alta:

  • Probabilidade de ter Renda Baixa:

  • Probabilidade de ter Bom Histórico de Crédito:

  • Probabilidade de ter Muito Bom Histórico de Crédito:

Passo 3: Classificação

No passo de classificação do algoritmo de Naive Bayes, usamos o Teorema de Bayes para calcular a probabilidade de um exemplo pertencer a cada classe e, em seguida, atribuímos o exemplo à classe com a maior probabilidade.

Suponha que temos um exemplo com os seguintes atributos:

  • Idade: Média

  • Renda: Baixa

  • Histórico de Crédito: Bom

Vamos calcular a probabilidade para cada classe, considerando as probabilidades condicionais que calculamos anteriormente:

Para Baixo Risco:

éé

é

Para Alto Risco:

éé

é

Passo 4: Escolha da classe com maior probabilidade

Agora, comparamos as probabilidades para cada classe e concluímos que o exemplo tem maior probabilidade de ser classificado como “Baixo Risco” tendo uma probabilidade de aproximadamente 0.0903 ou 66%.

éé

Portanto, de acordo com o algoritmo de Naive Bayes, a previsão é que o exemplo pertence à classe “Baixo Risco”.