Cross-validatie

Een techniek om model-prestaties te evalueren door data in meerdere delen op te splitsen en herhaaldelijk te testen.

Uitleg

Cross-validatie is een kritieke techniek om machine learning-modellen eerlijk te evalueren. In plaats van data slechts in train en test te splitsen, wordt data in k gelijke delen (folds) opgesplitst. Het model wordt k keer getraind: k-1 folds voor training, 1 fold voor testing.

Dit proces wordt herhaald totdat elke fold eenmaal is gebruikt als testset. De eindperformantie is het gemiddelde van alle k runs. Dit geeft een betrouwbaarder schattting van hoe het model op onziene data zal presteren dan één enkele train-test split.

K-fold cross-validatie (meestal k=5 of k=10) helpt overfitting te detecteren en hyperparameters eerlijk te vergelijken. Stratified cross-validatie zorgt ervoor dat klassebalans behouden blijft in elke fold, wat belangrijk is voor ongebalanceerde datasets.

Voorbeelden

  • Bij 5-fold cross-validatie wordt model 5 keer getraind op verschillende 80%-subsets van data
  • Cross-validatie helpt overfitting detecteren wanneer training-score veel hoger is dan cross-validatie-score
  • Datawetenschappers gebruiken cross-validatie om verschillende algoritmen eerlijk te vergelijken

Trefwoorden

evaluatie-strategievalidationmodel-assessmenttraining-testing

Gerelateerde termen

Gerelateerde begrippen

Overfitting

Over deze term

Wat is Cross-validatie?

Een techniek om model-prestaties te evalueren door data in meerdere delen op te splitsen en herhaaldelijk te testen.