RESEARCH27

Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models

arXiv CS.AI·4 mai 2026

Cet article explore des explications minimales, locales et causales pour le succès des attaques de jailbreak sur les grands modèles de langage (LLMs). La recherche aborde le manque de compréhension robuste concernant la vulnérabilité des LLMs à ces attaques, qui permettent des réponses nuisibles malgré leur entraînement de sécurité.

LLMs jailbreak security AI safety

Lire l'original ↗