Uitleg
Multimodaliteit verwijst naar AI-modellen die niet beperkt zijn tot één type data. Een multimodaal model kan tekst, afbeeldingen, audio en video begrijpen en genereren. Dit staat in contrast met unimodale modellen die slechts één type data verwerken (bijvoorbeeld alleen tekst).
De trend naar multimodaliteit is een van de belangrijkste ontwikkelingen in AI. Modellen als GPT-4o, Gemini en Claude zijn multimodaal: je kunt er een foto naartoe sturen en vragen stellen over wat je ziet, of een gesproken vraag stellen en een geschreven antwoord terugkrijgen.
Multimodaliteit maakt AI-systemen veel veelzijdiger en natuurlijker in gebruik. Mensen communiceren immers ook multimodaal: we praten, tekenen, lezen en wijzen naar dingen tegelijk. Door AI dezelfde mogelijkheden te geven, worden interacties intuïtiever en effectiever.
⚡ Voorbeelden
- •Je stuurt een foto van een gerecht naar GPT-4o en vraagt om het recept
- •Gemini kan tegelijkertijd tekst lezen, afbeeldingen analyseren en audio verwerken
- •Een multimodaal model beschrijft wat er in een video gebeurt op basis van beeld en geluid