No algoritmo K-Means, o cálculo da distância é uma etapa crucial que determina a qual cluster (grupo) um ponto de dados deve ser atribuído. O cálculo da distância é usado para medir a proximidade entre um ponto de dados e os centroides dos clusters existentes. O ponto de dados é então associado ao cluster cujo centroide está mais próximo. A métrica de distância comumente usada no K-Means é a distância euclidiana, mas outras métricas de distância também podem ser usadas dependendo do contexto.
A fórmula da distância euclidiana entre dois pontos, e , em um espaço bidimensional, é dada por:
No contexto do K-Means, onde frequentemente trabalhamos com dados multidimensionais, a fórmula da distância euclidiana geral entre dois pontos, e , em um espaço de dimensões é:
Basicamente, o cálculo da distância envolve as seguintes etapas:
-
Para cada ponto de dados a ser atribuído a um cluster, calcule a distância entre esse ponto e os centroides de todos os clusters existentes.
-
Use a fórmula da distância euclidiana ou outra métrica de distância apropriada, dependendo do espaço de características em que você está trabalhando.
-
Atribua o ponto de dados ao cluster cujo centroide está mais próximo (ou seja, o cluster com a menor distância entre o ponto e seu centroide).
A seguir um exemplo simples com dois centroides em um espaço bidimensional para ilustrar o cálculo da distância:
Suponha que temos dois centroides: e , e um ponto de dados .
-
Calcule a distância entre e usando a fórmula da distância euclidiana:
-
Calcule a distância entre e usando a mesma fórmula:
-
Como a distância de a é menor que a distância de a , o ponto é atribuído ao cluster representado por .
Esse processo é repetido para todos os pontos de dados, e os clusters são atualizados iterativamente até que os centroides não se movam significativamente e a convergência seja alcançada.