A tarefa de determinar o número ideal de clusters em uma análise de agrupamento é crucial, pois afeta diretamente a qualidade e interpretabilidade dos resultados. Existem várias abordagens para abordar essa questão, e aqui apresentamos algumas delas:
-
Conhecimento Prévio
Se você possui conhecimento prévio sobre o domínio do problema ou algum contexto específico, isso pode ajudar a determinar o número de clusters de forma direta.
Por exemplo, se você está segmentando clientes de uma loja de roupas e sabe que há categorias distintas, como “homens”, “mulheres” e “crianças”, você pode definir o número de clusters como 3 com base nesse conhecimento.
-
Regra da Raiz Quadrada
Uma abordagem simplificada é calcular o número de clusters usando a fórmula:
Onde
é o número de observações ou pontos de dados em seu conjunto de dados. Essa regra fornece uma estimativa inicial do número de clusters, mas pode não ser apropriada para todos os conjuntos de dados.
-
Método Elbow (Elbow Method)
O método do cotovelo é uma técnica amplamente utilizada para determinar o número ideal de clusters. Ele envolve a execução do algoritmo de agrupamento para diferentes valores de
, começando com , e calculando a métrica Within-Cluster Sum of Squares (WCSS) para cada valor de . O WCSS é definido como: Onde:
são os pontos de dados em um cluster; é o centroide do cluster ; é a distância euclidiana entre o ponto de dados e o centroide.
A ideia principal do método do cotovelo é que, à medida que o número de clusters aumenta, o valor do WCSS diminui, uma vez que os pontos são mais próximos dos centroides. No entanto, em algum ponto, adicionar mais clusters não resultará em uma redução significativa do WCSS, e isso é identificado como o “cotovelo” no gráfico. O valor de
no ponto de cotovelo é frequentemente escolhido como o número ideal de clusters. OBS: A escolha da métrica WCSS é crucial e pode afetar os resultados. Configurar um valor muito alto para WCSS pode resultar em um único cluster, enquanto um valor muito baixo pode levar ao agrupamento de cada ponto de dados como um cluster separado. Portanto, é importante considerar a faixa de valores de
e observar o ponto de cotovelo no gráfico.
É importante ressaltar que não existe uma abordagem única e definitiva para determinar o número ideal de clusters, e diferentes métodos podem fornecer resultados ligeiramente diferentes. A escolha do método depende do contexto do problema e da qualidade dos resultados obtidos em conjunto com a compreensão do domínio.