K-Means

Een populair ongecontroleerd leer-algoritme dat data in k clusters verdeelt door centroids te minimaliseren.

Uitleg

K-Means is een van de meest gebruikte ongecontroleerde leer-algoritmen voor clustering. Het verdeelt data in k clusters door datapunten toe te wijzen aan dichtstbijzijnde cluster-centroid, vervolgens centroids bij te werken.

Het algoritme itereert: 1) Wijs punten toe aan dichtstbijzijnde centroid 2) Bereken nieuwe centroïden als gemiddelde van punten in cluster. Dit herhaalt totdat convergentie. Het algoritme minimaliseert within-cluster variatie.

Het voornaamste nadeel is dat je k van tevoren moet kiezen. Elbow method helpt: plot variantie tegen k en kies waar "elleboog" optreedt. K-Means werkt goed voor sferische clusters maar niet goed voor andere vormen. Andere algoritmen (DBSCAN) kunnen betere vormen behandelen.

Voorbeelden

  • Klantsegmentatie: k-means groepeer klanten in 5 clusters gebaseerd op aankoopgedrag
  • Imageclusterering: groepeer 1 miljoen afbeeldingen in 100 clusters voor thumbnail-generatie
  • Document-clustering: groepeer nieuwsartikelen in 10 topics gebaseerd op woord-frequentie

Trefwoorden

unsupervised-clusteringcentroiditeratief-algoritmevariatie-minimalisering

Gerelateerde termen

Gerelateerde begrippen

Unsupervised Learning, Clustering

Over deze term

Wat is K-Means?

Een populair ongecontroleerd leer-algoritme dat data in k clusters verdeelt door centroids te minimaliseren.