Uitleg
Transformers zijn revolutionaire neurale netwerk-architectuur geïntroduceerd in 2017 die op attention-mechanismen zijn gebaseerd in plaats van recurrent loops. Ze processeren gehele sequenties parallel in plaats van stap-voor-stap.
Transformers bestaan uit encoder en decoder met multiple attention-lagen. Self-attention laagjes bepalen welke parts van input het meest relevant zijn. Deze architectuur leidt tot veel snellere training en betere prestaties dan RNNs.
Transformers zijn basis van grootste taalmodellen: BERT, GPT, ChatGPT. Ze domineren modern NLP en worden ook gebruikt voor computer vision (Vision Transformers). Hun succes komt van parallellisme en vermogen om long-range dependencies te leren.
⚡ Voorbeelden
- •BERT en GPT gebruiken transformers voor natuurlijke taalverwerking
- •ChatGPT is een transformer-gebaseerd taalmodel dat miljarden parameters heeft
- •Vision Transformers wenden transformer-architectuur toe op afbeeldingen