Uitleg
Een dataset is de "school" waar je model leert. Het bestaat uit vele voorbeelden: elk voorbeeld heeft features (invoer) en meestal ook labels (correcte antwoorden).
Datasets variëren enorm in grootte: van duizenden voorbeelden tot miljarden. ImageNet, een beroemde beeldherkenningsdataset, bevat 14 miljoen gelabelde afbeeldingen. De kwaliteit van een dataset is cruciaal: grootte is belangrijk, maar ook diversiteit en nauwkeurigheid.
Datasets worden typisch opgesplitst in drie delen: trainingsset (voor het leren van het model), validatieset (voor afstemming van hyperparameters) en testset (voor final evaluatie).
⚡ Voorbeelden
- •MNIST-dataset bevat 70.000 handgeschreven cijfers voor trainingsmodellen op cijferherkenning
- •ImageNet heeft 14 miljoen gelabelde afbeeldingen voor trainingsbeeldherkenningsmodellen
- •WikiText-dataset bevat miljarden woorden voor trainingstaalmodellen