RESEARCH27

Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models

arXiv CS.AI·4 de mayo de 2026

Este artículo explora explicaciones mínimas, locales y causales para el éxito de los ataques de jailbreak en grandes modelos de lenguaje (LLMs). La investigación aborda la falta de una comprensión robusta sobre la vulnerabilidad de los LLMs a estos ataques, que permiten respuestas dañinas a pesar de su entrenamiento de seguridad.

LLMs jailbreak security AI safety

Leer original ↗