Introdução a regressão com random forest
A Random Forest é um algoritmo de aprendizado de máquina que é frequentemente usado para problemas de classificação e é uma versão aprimorada do algoritmo de árvore de decisão. A ideia central por trás da Random Forest é a aprendizagem em conjunto (ensemble learning), em outras palavras, combinar várias árvores de decisão individuais para criar um modelo de mais robusto e preciso.
Além da classificação, é possível utilizar desse algoritmo para a regressão no qual o objetivo é prever um valor numérico (variável de resposta) com base em um conjunto de características (variáveis explicativas).
O processo de regressão consiste nas seguintes etapas:
-
Divisão das amostras de dados: Para cada árvore na “floresta”, você cria uma subamostra aleatória a partir do conjunto de dados de treinamento. Nesse caso, algumas observações podem ser repetidas na subamostra e outras podem ser deixadas de fora.
-
Seleção de características: Para cada árvore, será seleciona aleatoriamente um subconjunto das características do conjunto de dados. Isso ajuda a introduzir diversidade entre as árvores da “floresta”.
-
Treinamento das árvores: Cada árvore é treinada na subamostra de dados e no subconjunto de características. O treinamento de cada árvore segue o mesmo processo de construção de uma árvore de decisão, porém em problemas de regressão é utilizado o erro quadrático médio (MSE).
-
Previsões: Uma vez que todas as árvores são treinadas, você pode usar a “floresta” para fazer previsões. Para regressão, a previsão final é a média das previsões de todas as árvores na “floresta”.