RESEARCH27
Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models
arXiv CS.AI·4 de mayo de 2026
Este artículo explora explicaciones mínimas, locales y causales para el éxito de los ataques de jailbreak en grandes modelos de lenguaje (LLMs). La investigación aborda la falta de una comprensión robusta sobre la vulnerabilidad de los LLMs a estos ataques, que permiten respuestas dañinas a pesar de su entrenamiento de seguridad.
Leer original ↗