Uitleg
Constitutional AI is Anthropic's methode om taalmodellen af te stemmen op menselijke waarden. In plaats van enkel RLHF, gebruikt het een set van duidelijke beginselen (een "grondwet") die het model moet volgen.
De aanpak combineert fine-tuning van menselijke feedback met modellen die hun eigen gedrag controleren op grondwettelijke principes. Dit geeft meer directe controle dan zuivere RLHF.
Constitutional AI illustreert de verschuiving in AI-onderzoek naar alignment en veiligheid.
⚡ Voorbeelden
- •Claude (Anthropic's model) is getraind met Constitutional AI-principes
- •Het model refuseert bepaalde verzoeken niet alleen via training maar ook omdat beginselen het niet toestaan
- •Dit is experimenteel maar toon veel beloof voor controleerbare AI
Trefwoorden
alignmentprinciplebaseerdveiligheidAnthropic