No algoritmo K-Means, o cálculo da distância é uma etapa crucial que determina a qual cluster (grupo) um ponto de dados deve ser atribuído. O cálculo da distância é usado para medir a proximidade entre um ponto de dados e os centroides dos clusters existentes. O ponto de dados é então associado ao cluster cujo centroide está mais próximo. A métrica de distância comumente usada no K-Means é a distância euclidiana, mas outras métricas de distância também podem ser usadas dependendo do contexto.

A fórmula da distância euclidiana entre dois pontos, e , em um espaço bidimensional, é dada por:

â

No contexto do K-Means, onde frequentemente trabalhamos com dados multidimensionais, a fórmula da distância euclidiana geral entre dois pontos, e , em um espaço de dimensões é:

â

Basicamente, o cálculo da distância envolve as seguintes etapas:

  1. Para cada ponto de dados a ser atribuído a um cluster, calcule a distância entre esse ponto e os centroides de todos os clusters existentes.

  2. Use a fórmula da distância euclidiana ou outra métrica de distância apropriada, dependendo do espaço de características em que você está trabalhando.

  3. Atribua o ponto de dados ao cluster cujo centroide está mais próximo (ou seja, o cluster com a menor distância entre o ponto e seu centroide).

A seguir um exemplo simples com dois centroides em um espaço bidimensional para ilustrar o cálculo da distância:

Suponha que temos dois centroides: e , e um ponto de dados .

  1. Calcule a distância entre e usando a fórmula da distância euclidiana:

    â
  2. Calcule a distância entre e usando a mesma fórmula:

    â
  3. Como a distância de a é menor que a distância de a , o ponto é atribuído ao cluster representado por .

Esse processo é repetido para todos os pontos de dados, e os clusters são atualizados iterativamente até que os centroides não se movam significativamente e a convergência seja alcançada.