Matrix de confusão

A matriz de confusão é uma métrica de avaliação de algoritmos que mostra a confusão cometida por esse algoritmo. Como o nome sugere a visualização desse indicador se dá por meio de uma matriz onde cada linha representa a classe (valores reais) e os valores das colunas de cada linha representa as previsão do algoritmo para cada valor da classe.

A diagonal principal da matriz de confusão representam os acertos do algoritmo. Logo para calcular o número de erros basta realizar o somatório dos valos que não pertencem a diagonal principal.

Considere a seguinte matriz de confusão para as análises posteriores:

AltoModeradoBaixo
Alto2873
Moderado6322
Baixo5825

Primeiramente é interessante calcular o número de acertos e erros do algoritmo:

E então calcular o número total de de registro no conjunto de testes:

Com o total, pode-se calcular a porcentagem de acertos e erros:

Lembrando que a criação da matriz de confusão é feita com base no conjunto de testes.

Além disso é possível de ser feita com base na matriz de confusão é calcular a porcentagem de acertos para cada valor categórico da classe:

Por fim, para analisar se o algoritmo performou bem é necessário levar em cota 3 fatores:

  1. Cenário / Contexto do problemas que o algoritmo busca resolver

  2. Número de classes: o algoritmo deve ter uma porcentagem de acerto superior a probabilidade base, ou seja, , sendo a probabilidade de ocorrer uma das classes e descrito pela fórmula: ú

  3. Acerto percentual deve ser superior ao algoritmo Zero R (Zero rules)