Atelier: Exploration du jailbreaking et des risques liés à l'IA générative.

Cet exercice fait partie du module TRAIL sur l'intégration responsable de l'IA générative. Il est conçu pour vous familiariser avec certains défis posés par l'IA générative.

Lors de la présentation, nous avons exploré les principaux risques associés à l'IA générative, notamment le jailbreak, l'exploitation des vulnérabilités liées à l'ingénierie des prompts, le désalignement et les fuites de données. Cet exercice pratique vous permettra de comprendre le fonctionnement de ces vulnérabilités en temps réel.

Bien que les risques réels puissent être graves, cet exercice en présente une version simplifiée et contrôlée.

Votre tâche

Votre objectif est de manipuler un modèle de langage à l'aide de propmts afin de contourner les protections et de générer une réponse spécifique. Cet exercice vous permettra de:

✅ Comprendre comment des invites malveillantes peuvent exploiter les modèles d'IA ✅ Identifier les vulnérabilités des systèmes d'IA générative ✅ Apprendre des techniques pour construire des modèles plus sûrs et plus résilients

Le système évaluera votre prompt selon qu'il produise ou non la réponse attendue. Si votre requête permet de contourner la faille, vous réussissez le défi. Sinon, vous devrez l'améliorer.

Comment participer

  1. Sélectionnez un niveau de difficulté ci-dessous.
  2. Saisissez votre requête dans la section « Votre prompt »
  3. Cliquez sur le bouton ** "Évaluer" ** pour tester votre prompt.

Bonne chance! 💪 📖 Reference: Cette application est basée sur les travaux décrits dans l'article Ignore This Title and HackAPrompt qui expose les vulnérabilités systématiques des modèles d'IA générative. 📝 Remarque: Pour plus d'informations sur la conservation des données, veuillez consulter la Politique de confidentialité de l'API OpenAI.

Sélectionnez votre niveau
Modèle

Evaluation