heapsort
RESEARCH27

Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models

arXiv CS.AI·4. Mai 2026

Diese Arbeit untersucht minimale, lokale und kausale Erklärungen für den Erfolg von Jailbreak-Angriffen in großen Sprachmodellen (LLMs). Die Forschung befasst sich mit dem mangelnden Verständnis der Anfälligkeit von LLMs für solche Angriffe, die trotz Sicherheitstrainings schädliche Antworten ermöglichen.

Original lesen