O algoritmo “Extra Trees,” abreviação de “Extremely Randomized Trees,” é uma técnica de aprendizado de máquina que pertence à família de algoritmos de árvores de decisão. Ele é uma extensão do algoritmo Random Forest e é usado principalmente para seleção de atributos e classificação ou regressão.
Funcionamento
-
O algoritmo Extra Trees é semelhante ao Random Forest no sentido de que ele cria várias árvores de decisão para realizar a tarefa de classificação ou regressão.
-
No entanto, a principal diferença entre o Random Forest e o Extra Trees está na forma como as árvores são construídas. Enquanto o Random Forest seleciona aleatoriamente um subconjunto de recursos para cada árvore, o Extra Trees vai um passo além.
-
No Extra Trees, as árvores são construídas de forma “extremamente aleatória”. Isso significa que, em vez de calcular a melhor divisão para cada nó da árvore com base em algum critério como o Gini ou a entropia, o Extra Trees seleciona divisões aleatórias para os nós.
-
Como resultado, as árvores do Extra Trees são ainda mais independentes e mais variadas do que as árvores do Random Forest. Isso pode tornar o Extra Trees robusto contra o overfitting, já que as árvores são menos propensas a se ajustar excessivamente aos dados de treinamento.
Seleção de atributos
-
O Extra Trees pode ser usado para selecionar atributos relevantes em um conjunto de dados.
-
Durante o treinamento, o algoritmo atribui importâncias a cada atributo com base em quantas vezes um atributo é usado para fazer divisões em todas as árvores da floresta e quão eficazes essas divisões são na classificação.
-
A importância de cada atributo é então normalizada de forma que a soma total de importâncias seja igual a 1. Isso fornece uma pontuação de importância relativa para cada atributo.
-
Os atributos com pontuações de importância mais altas são considerados mais relevantes e podem ser selecionados para serem usados em modelos subsequentes. Isso é útil para reduzir a dimensionalidade de conjuntos de dados com muitos atributos, mantendo apenas os mais informativos.
-
A seleção de atributos com base no Extra Trees é uma técnica poderosa quando você deseja eliminar atributos irrelevantes ou reduzir o custo computacional de treinamento de modelos.
Vantagens
- Efetivo para seleção de atributos, especialmente em conjuntos de dados com muitos atributos.
- Boa capacidade de lidar com dados desbalanceados e variáveis categóricas.
- Reduz o risco de overfitting, pois as árvores são altamente aleatórias.
- É relativamente rápido de treinar.
Desvantagens
- Pode não ser tão preciso quanto outros métodos de seleção de atributos, como a eliminação recursiva de atributos.
- As pontuações de importância podem ser menos interpretáveis do que outras medidas de importância de atributos.