K-Means est un algorithme itératif qui minimise la somme des distances entre le centroïde et les individus.
Le résultat final est conditionné par le choix initial des centroïdes.
Il s'agit de l'élément central de l'algorithme.
C'est un point du jeu de donnée qui sera désigné comme le centre d'un cluster.
D'une part, KNN fait appel à un mode d'apprentissage supervisé : les données doivent être étiquetées en amont.
D'autre part, la méthode KNN est surtout utilisée pour les problèmes de classification et de régression, alors que K-means sert exclusivement au partitionnement de données.
Les algorithmes de clustering les plus courants sont le K-Means, les algorithmes de maximisation de l'espérance (de type EM, comme les mixtures gaussiennes) et les partitions de graphes.