RESEARCH27

Minimal, Local, Causal Explanations for Jailbreak Success in Large Language Models

arXiv CS.AI·4 de maio de 2026

Este artigo explora explicações mínimas, locais e causais para o sucesso de ataques de jailbreak em grandes modelos de linguagem (LLMs). A pesquisa aborda a falta de compreensão robusta sobre a vulnerabilidade dos LLMs a tais ataques, que permitem respostas prejudiciais apesar do treinamento de segurança.

LLMs jailbreak security AI safety

Ler original ↗