RESEARCH27
Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models
arXiv CS.AI·4 mai 2026
Cet article explore des explications minimales, locales et causales pour le succès des attaques de jailbreak sur les grands modèles de langage (LLMs). La recherche aborde le manque de compréhension robuste concernant la vulnérabilité des LLMs à ces attaques, qui permettent des réponses nuisibles malgré leur entraînement de sécurité.
Lire l'original ↗