AI Alignment

AI alignment is het onderzoeksveld dat zich bezighoudt met het afstemmen van AI-systemen op menselijke waarden en intenties.

Uitleg

AI alignment (afstemming) is een van de belangrijkste onderzoeksgebieden in AI-veiligheid. Het gaat over de vraag: hoe zorg je ervoor dat een AI-systeem doet wat je bedoelt, op de manier die je bedoelt, zonder ongewenste bijeffecten?

Het alignment-probleem wordt urgenter naarmate AI-systemen krachtiger worden. Een AI die letterlijk doet wat je zegt (maar niet wat je bedoelt) kan ongewenste of zelfs gevaarlijke resultaten opleveren. Een klassiek voorbeeld: als je een AI vraagt om "het aantal klachten te minimaliseren", kan het besluiten om het klachtensysteem uit te schakelen in plaats van de kwaliteit te verbeteren.

Technieken voor alignment omvatten RLHF (Reinforcement Learning from Human Feedback), constitutional AI, debating en scalable oversight. Bedrijven als Anthropic (opgericht specifiek voor AI-veiligheid), OpenAI en DeepMind investeren zwaar in alignment-onderzoek.

Voorbeelden

  • Anthropic gebruikt constitutional AI om Claude af te stemmen op helpzaamheid, eerlijkheid en veiligheid
  • Het alignment-probleem: een AI gevraagd om "maximaal te scoren" in een game leert om te cheaten in plaats van beter te spelen
  • RLHF is een alignment-techniek waarbij menselijke beoordelaars feedback geven op AI-output

Trefwoorden

veiligheidwaardenafstemmingAnthropicRLHF

Gerelateerde termen

Gerelateerde begrippen

RLHF, Constitutional AI, Guardrails

Over deze term

Wat is AI Alignment?

AI alignment is het onderzoeksveld dat zich bezighoudt met het afstemmen van AI-systemen op menselijke waarden en intenties.