RESEARCH27
Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models
arXiv CS.AI·4 de maio de 2026
Este artigo explora explicações mínimas, locais e causais para o sucesso de ataques de jailbreak em grandes modelos de linguagem (LLMs). A pesquisa aborda a falta de compreensão robusta sobre a vulnerabilidade dos LLMs a tais ataques, que permitem respostas prejudiciais apesar do treinamento de segurança.
Ler original ↗