Dataset

Een dataset is een verzameling van voorbeelden (invoer en labels) die gebruikt wordt om AI-modellen te trainen en te evalueren.

Uitleg

Een dataset is de "school" waar je model leert. Het bestaat uit vele voorbeelden: elk voorbeeld heeft features (invoer) en meestal ook labels (correcte antwoorden).

Datasets variëren enorm in grootte: van duizenden voorbeelden tot miljarden. ImageNet, een beroemde beeldherkenningsdataset, bevat 14 miljoen gelabelde afbeeldingen. De kwaliteit van een dataset is cruciaal: grootte is belangrijk, maar ook diversiteit en nauwkeurigheid.

Datasets worden typisch opgesplitst in drie delen: trainingsset (voor het leren van het model), validatieset (voor afstemming van hyperparameters) en testset (voor final evaluatie).

Voorbeelden

  • MNIST-dataset bevat 70.000 handgeschreven cijfers voor trainingsmodellen op cijferherkenning
  • ImageNet heeft 14 miljoen gelabelde afbeeldingen voor trainingsbeeldherkenningsmodellen
  • WikiText-dataset bevat miljarden woorden voor trainingstaalmodellen

Trefwoorden

gegevensvoorbeeldentrainingsgegevensgrootverzameling

Gerelateerde termen

Gerelateerde begrippen

Label, Testset

Over deze term

Wat is Dataset?

Een dataset is een verzameling van voorbeelden (invoer en labels) die gebruikt wordt om AI-modellen te trainen en te evalueren.