Guardrails

Guardrails zijn veiligheidsmaatregelen en filters die worden ingebouwd in AI-systemen om ongewenst of schadelijk gedrag te voorkomen.

Uitleg

Guardrails in AI zijn de veiligheidsmaatregelen die ervoor zorgen dat een AI-systeem zich gedraagt zoals bedoeld. Ze voorkomen dat het model schadelijke, onjuiste of ongepaste output genereert. Guardrails kunnen bestaan uit content-filters, output-validatie, veiligheidsregels en monitoring-systemen.

Er zijn verschillende typen guardrails: input-guardrails filteren schadelijke gebruikersinvoer, output-guardrails controleren de AI-output voordat deze wordt getoond, en systeem-guardrails bewaken het algehele gedrag van het model. Bedrijven als Anthropic, OpenAI en Google implementeren uitgebreide guardrails in hun modellen.

Het ontwerpen van effectieve guardrails is een van de grootste uitdagingen in AI-veiligheid. Te strikte guardrails maken een model onbruikbaar, terwijl te losse guardrails risico's met zich meebrengen. Het vinden van de juiste balans is een actief onderzoeksgebied.

Voorbeelden

  • ChatGPT weigert instructies om schadelijke content te genereren dankzij ingebouwde guardrails
  • Een bedrijf bouwt guardrails in zijn klantenservice-AI zodat deze geen beloften doet die het bedrijf niet kan waarmaken
  • Output-guardrails controleren of een medische AI geen gevaarlijke adviezen geeft

Trefwoorden

veiligheidfiltersbeveiligingcontent moderatieAI safety

Gerelateerde termen

Gerelateerde begrippen

RLHF, Hallucinatie, Constitutional AI

Over deze term

Wat is Guardrails?

Guardrails zijn veiligheidsmaatregelen en filters die worden ingebouwd in AI-systemen om ongewenst of schadelijk gedrag te voorkomen.