Uitleg
Een token is de elementaire bouwsteen waarmee taalmodellen tekst verwerken. Afhankelijk van het tokenisatiealgorithme kan een token een heel woord zijn, een gedeelte van een woord, of zelfs een enkel teken.
Tokens zijn belangrijk omdat ze bepalen hoeveel tekst een model kan verwerken en hoeveel het kost om het model te gebruiken. Providers zoals OpenAI berekenen hun prijzen op basis van tokens: meer tokens = hogere kosten.
De aantal tokens in een stuk tekst verschilt van het aantal woorden. "Hallo" is misschien 1 token, maar "internationalisering" kan in 3-4 tokens worden opgesplitst. Dit maakt token-tellen essentieel voor budgettering van API-kosten.
⚡ Voorbeelden
- •De zin "Ik ben een AI" is ongeveer 5-6 tokens, niet 4 woorden
- •OpenAI berekent dat GPT-4 100 tokens ongeveer $0,003 kost (input) en $0,006 (output)
- •Lange documenten kunnen miljoenen tokens bevatten, wat betekent dat grote context-windows nodig zijn om ze volledig te verwerken