Uitleg
Testset is heilig: je mag het niet aanraken totdat je model volledig getraind en afgestemd is. Dit zorgt voor onpartijdige prestatiebeoordelingen.
Veel ML-projecten mislukken omdat onderzoekers heimelijk peek op testgegevens en optimaliseren naar testfouten. Dit is "data leakage" en leidt tot modellen die slecht presteren in echte wereld.
De workflow is: train op trainingsset, stel hyperparameters af via validatieset, evalueer uiteindelijk op testset. Indien alleen trainings- en testsets zonder validatie: je kunt overfitting niet herkennen.
⚡ Voorbeelden
- •Splitsen: 70% training, 15% validatie, 15% test
- •Rapport: "trainingsnauwkeurigheid 95%, validatienauwkeurigheid 88%, testnauwkeurigheid 87%"
- •Voorkomen: testset niet gebruiken totdat model volledig gereed