Machine Learning

Area Under the Curve: één getal (0-1) dat het algehele prestatie van een classificatie-model samenvat.

Bagging

Een ensemble-methode die modellen parallel traint op willekeurige steekproeven met vervanging van dezelfde dataset.

Boosting

Een ensemble-techniek die sequentieel modellen traint, waarbij elk model de fouten van vorige modellen probeert te corrigeren.

Classificatie

Een machine learning-taak waarbij data wordt ingedeeld in vooraf gedefinieerde categorieën, zoals spam of geen spam.

Clustering

Een unsupervised machine learning-techniek die soortgelijke gegevenspunten groepeert zonder vooraf gelabelde categorieën.

Cross-validatie

Een techniek om model-prestaties te evalueren door data in meerdere delen op te splitsen en herhaaldelijk te testen.

Decision Tree

Een machine learning-algoritme dat beslissingen neemt door vragen sequentieel te stellen, zoals een stroomdiagram van ja/nee vragen.

Dimensiereductie

Technieken om het aantal features in data te verminderen terwijl belangrijke informatie behouden blijft.

Distillatie

Distillatie is een techniek waarbij de kennis van een groot AI-model wordt overgedragen naar een kleiner, sneller model.

Ensemble-learning

Een techniek die veel modellen combineert om betere voorspellingen te maken dan elk model afzonderlijk.

F1-Score

Een enkele metriek die precision en recall in één getal combineert: harmonic mean van beiden.

Feature Engineering

Het proces van creëren, selecteren en transformeren van inputvariabelen om model-prestaties te verbeteren.

Gradient Descent

Een optimalisatie-algoritme dat stap voor stap parameters van een model aanpast om fouten te minimaliseren.

K-Means

Een populair ongecontroleerd leer-algoritme dat data in k clusters verdeelt door centroids te minimaliseren.

K-Nearest Neighbors

Een simpel algoritme dat een datapunt classifieert op basis van zijn k dichtstbijzijnde buren in de trainingsset.

Lineaire Regressie

Het eenvoudigste regressie-algoritme dat een rechte lijn fit door data om continue waarden te voorspellen.

Logistische Regressie

Een lineair classificatie-algoritme dat waarschijnlijkheden voorspelt met een S-vormige (sigmoid) functie.

Loss-functie

Een wiskundige functie die meet hoe groot de fout is tussen voorspellingen van een model en werkelijke waarden.

Naive Bayes

Een probabilistische classificatie-algoritme gebaseerd op Bayes-stelling met aanname van onafhankelijkheid tussen features.

PCA

Principal Component Analysis: techniek om data naar lagerdimensionale ruimte te transformeren met behoud van variantie.

Precision en Recall

Twee belangrijke metrieken voor classificatie: precision meet juistheid, recall meet volledigheid van voorspellingen.

Random Forest

Een ensemble-algoritme dat veel decision trees combineert voor meer nauwkeurige voorspellingen dan één boom.

Regressie

Een machine learning-techniek om een continu waarde te voorspellen op basis van invoergegevens, zoals huizenprijzen voorspellen.

Regularisatie

Een techniek die overfitting voorkomen door modellen complexiteit te beperken en grote gewichten af te straffen.

ROC-curve

Een grafiek die de trade-off tussen true positive rate en false positive rate toont over alle classificatie-drempels.

Support Vector Machine