Knowledge Distillation

Techniek waarbij een klein student model leert van een groot teacher model om complexiteit te behouden maar omvang te verkleinen.

Uitleg

Knowledge distillation traint een klein student model om de voorspellingen van een groot teacher model na te bootsen. Dit stelt het student model in staat kennis van het grotere model te benutten zonder zijn omvang te erven. Dit wordt gedaan door zachte targets (probability distributions) in plaats van harde labels.

Distillatie is zeer effectief voor het creëren van compacte modellen met sterke prestaties.

Voorbeelden

  • DistilBERT leert van volledige BERT voor 40% kleinere model
  • MobileNets getraind via knowledge distillation van ResNets
  • Kleine taalmodellen geleerd van grote modellen

Trefwoorden

transfertrainingcompressieefficiëntiestudent-teacher

Gerelateerde termen

Gerelateerde begrippen

Training, Transfer Learning

Over deze term

Wat is Knowledge Distillation?

Techniek waarbij een klein student model leert van een groot teacher model om complexiteit te behouden maar omvang te verkleinen.