No algoritmo K-Means, o cálculo da distância é uma etapa crucial que determina a qual cluster (grupo) um ponto de dados deve ser atribuído. O cálculo da distância é usado para medir a proximidade entre um ponto de dados e os centroides dos clusters existentes. O ponto de dados é então associado ao cluster cujo centroide está mais próximo. A métrica de distância comumente usada no K-Means é a distância euclidiana, mas outras métricas de distância também podem ser usadas dependendo do contexto.
A fórmula da distância euclidiana entre dois pontos,
No contexto do K-Means, onde frequentemente trabalhamos com dados multidimensionais, a fórmula da distância euclidiana geral entre dois pontos,
Basicamente, o cálculo da distância envolve as seguintes etapas:
-
Para cada ponto de dados a ser atribuído a um cluster, calcule a distância entre esse ponto e os centroides de todos os clusters existentes.
-
Use a fórmula da distância euclidiana ou outra métrica de distância apropriada, dependendo do espaço de características em que você está trabalhando.
-
Atribua o ponto de dados ao cluster cujo centroide está mais próximo (ou seja, o cluster com a menor distância entre o ponto e seu centroide).
A seguir um exemplo simples com dois centroides em um espaço bidimensional para ilustrar o cálculo da distância:
Suponha que temos dois centroides:
-
Calcule a distância entre
e usando a fórmula da distância euclidiana: -
Calcule a distância entre
e usando a mesma fórmula: -
Como a distância de
a é menor que a distância de a , o ponto é atribuído ao cluster representado por .
Esse processo é repetido para todos os pontos de dados, e os clusters são atualizados iterativamente até que os centroides não se movam significativamente e a convergência seja alcançada.