RESEARCH27
Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models
arXiv CS.AI·4. Mai 2026
Diese Arbeit untersucht minimale, lokale und kausale Erklärungen für den Erfolg von Jailbreak-Angriffen in großen Sprachmodellen (LLMs). Die Forschung befasst sich mit dem mangelnden Verständnis der Anfälligkeit von LLMs für solche Angriffe, die trotz Sicherheitstrainings schädliche Antworten ermöglichen.
Original lesen ↗