Uitleg
Het ultieme doel van machine learning is generalisatie: een model dat niet alleen goed werkt op trainingsgegevens, maar ook op volledige onbekende voorbeelden.
Slecht generaliserend model: memoriseert trainingsdata, werkt slecht op nieuw data (overfitting). Goed generaliserend model: leert onderliggende patronen, werkt goed op nieuw data.
Generalisatie meten doen we met validatie- en testsets. Hoe groter het gat tussen trainingsfouten en validatiefouten, hoe slechter generalisatie. Meer trainingsdata, betere features, regulering helpen generalisatie verbeteren.
⚡ Voorbeelden
- •Model trainen op 2020 data, testen op 2024 data: slecht generaliseren = wereld veranderde
- •Trainen op foto's van honden in studio, testen op wild honden: slecht generaliseren
- •Goed generalisatie: trainen op gevarieerde data, testen op diverse nieuwe data goed