Een dataset is een verzameling van voorbeelden (invoer en labels) die gebruikt wordt om AI-modellen te trainen en te evalueren.

Dataset - Wat is Dataset? | AI Woordenboek 2026

Uitleg

Een dataset is de "school" waar je model leert. Het bestaat uit vele voorbeelden: elk voorbeeld heeft features (invoer) en meestal ook labels (correcte antwoorden).

Datasets variëren enorm in grootte: van duizenden voorbeelden tot miljarden. ImageNet, een beroemde beeldherkenningsdataset, bevat 14 miljoen gelabelde afbeeldingen. De kwaliteit van een dataset is cruciaal: grootte is belangrijk, maar ook diversiteit en nauwkeurigheid.

Datasets worden typisch opgesplitst in drie delen: trainingsset (voor het leren van het model), validatieset (voor afstemming van hyperparameters) en testset (voor final evaluatie).

⚡ Voorbeelden

•MNIST-dataset bevat 70.000 handgeschreven cijfers voor trainingsmodellen op cijferherkenning
•ImageNet heeft 14 miljoen gelabelde afbeeldingen voor trainingsbeeldherkenningsmodellen
•WikiText-dataset bevat miljarden woorden voor trainingstaalmodellen

Dataset

Uitleg

⚡ Voorbeelden

Trefwoorden

Gerelateerde termen

Gerelateerde begrippen

Over deze term

Wat is Dataset?