Red Teaming

Beveiligingspraktijk waar teams proberen AI-systemen opzettelijk te 'breken' of op ongewenste manieren te gebruiken.

Uitleg

Red teaming in AI betekent adversarische testen waar teams actief proberen AI-systemen ongewenst gedrag of toxische output te krijgen. Dit helpt ontwikkelaars kwetsbaarheden vóór productie te vinden en op te lossen.

Bedrijven als OpenAI voeren red teaming uit met externe experts om gevaarlijke potentiaal van hun modellen beter te begrijpen.

Voorbeelden

  • Prompts vinden die ChatGPT hazardous advies laten geven
  • Beelden manipuleren zodat gezichtsherkenning faalt
  • Wetenschappers die proberen groot taalmodel schadelijke code genereren

Trefwoorden

testenbeveiligingaanvalgevolgenrobustheid

Over deze term

Wat is Red Teaming?

Beveiligingspraktijk waar teams proberen AI-systemen opzettelijk te 'breken' of op ongewenste manieren te gebruiken.