O algoritmo “Extra Trees,” abreviação de “Extremely Randomized Trees,” é uma técnica de aprendizado de máquina que pertence à família de algoritmos de árvores de decisão. Ele é uma extensão do algoritmo Random Forest e é usado principalmente para seleção de atributos e classificação ou regressão.

Funcionamento

  • O algoritmo Extra Trees é semelhante ao Random Forest no sentido de que ele cria várias árvores de decisão para realizar a tarefa de classificação ou regressão.

  • No entanto, a principal diferença entre o Random Forest e o Extra Trees está na forma como as árvores são construídas. Enquanto o Random Forest seleciona aleatoriamente um subconjunto de recursos para cada árvore, o Extra Trees vai um passo além.

  • No Extra Trees, as árvores são construídas de forma “extremamente aleatória”. Isso significa que, em vez de calcular a melhor divisão para cada nó da árvore com base em algum critério como o Gini ou a entropia, o Extra Trees seleciona divisões aleatórias para os nós.

  • Como resultado, as árvores do Extra Trees são ainda mais independentes e mais variadas do que as árvores do Random Forest. Isso pode tornar o Extra Trees robusto contra o overfitting, já que as árvores são menos propensas a se ajustar excessivamente aos dados de treinamento.

Seleção de atributos

  • O Extra Trees pode ser usado para selecionar atributos relevantes em um conjunto de dados.

  • Durante o treinamento, o algoritmo atribui importâncias a cada atributo com base em quantas vezes um atributo é usado para fazer divisões em todas as árvores da floresta e quão eficazes essas divisões são na classificação.

  • A importância de cada atributo é então normalizada de forma que a soma total de importâncias seja igual a 1. Isso fornece uma pontuação de importância relativa para cada atributo.

  • Os atributos com pontuações de importância mais altas são considerados mais relevantes e podem ser selecionados para serem usados em modelos subsequentes. Isso é útil para reduzir a dimensionalidade de conjuntos de dados com muitos atributos, mantendo apenas os mais informativos.

  • A seleção de atributos com base no Extra Trees é uma técnica poderosa quando você deseja eliminar atributos irrelevantes ou reduzir o custo computacional de treinamento de modelos.

Vantagens

  • Efetivo para seleção de atributos, especialmente em conjuntos de dados com muitos atributos.
  • Boa capacidade de lidar com dados desbalanceados e variáveis categóricas.
  • Reduz o risco de overfitting, pois as árvores são altamente aleatórias.
  • É relativamente rápido de treinar.

Desvantagens

  • Pode não ser tão preciso quanto outros métodos de seleção de atributos, como a eliminação recursiva de atributos.
  • As pontuações de importância podem ser menos interpretáveis do que outras medidas de importância de atributos.