Quantisatie

Quantisatie is een techniek om AI-modellen kleiner en sneller te maken door de precisie van de modelgewichten te verlagen.

Uitleg

Quantisatie is een optimalisatietechniek waarbij de numerieke precisie van de gewichten in een AI-model wordt verlaagd. Standaard gebruiken modellen 32-bit of 16-bit floating point getallen, maar met quantisatie kun je dit terugbrengen naar 8-bit, 4-bit of zelfs 2-bit, waardoor het model veel minder geheugen nodig heeft.

Het idee is dat de meeste gewichten in een model niet de volle precisie van 32-bit nodig hebben. Door ze af te ronden naar een lagere precisie verlies je een klein beetje nauwkeurigheid, maar het model wordt twee tot acht keer kleiner en draait navenant sneller. Voor veel toepassingen is dit verlies verwaarloosbaar.

Quantisatie maakt het mogelijk om grote taalmodellen lokaal te draaien op gewone hardware. Zonder quantisatie heeft een model van 70 miljard parameters meer dan 140 GB geheugen nodig, maar met 4-bit quantisatie past het in circa 35 GB, wat op een moderne laptop of desktop past.

Voorbeelden

  • Met GGUF-quantisatie kun je LLaMA 70B lokaal draaien op een Mac met 64 GB RAM
  • Een 4-bit gequantiseerd model is vier keer kleiner dan het origineel met minimaal kwaliteitsverlies
  • Bedrijven gebruiken quantisatie om AI-modellen te draaien op edge-apparaten zoals telefoons en IoT-devices

Trefwoorden

compressieprecisiegeheugenGGUFlokaal draaien

Gerelateerde termen

Gerelateerde begrippen

Inferentie, Parameters, Gewichten, Distillatie

Over deze term

Wat is Quantisatie?

Quantisatie is een techniek om AI-modellen kleiner en sneller te maken door de precisie van de modelgewichten te verlagen.