RESEARCH27

Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models

arXiv CS.AI·4. Mai 2026

Diese Arbeit untersucht minimale, lokale und kausale Erklärungen für den Erfolg von Jailbreak-Angriffen in großen Sprachmodellen (LLMs). Die Forschung befasst sich mit dem mangelnden Verständnis der Anfälligkeit von LLMs für solche Angriffe, die trotz Sicherheitstrainings schädliche Antworten ermöglichen.

LLMs jailbreak security AI safety

Original lesen ↗