jailbreaking

3 items

RESEARCHarXiv CS.CL·30/04/2026

One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety

Esta pesquisa introduz a Decomposição Incremental de Completude (ICD), uma nova estratégia de jailbreak que explora as fraquezas nos mecanismos de segurança de LLMs ao elicitar sequências de palavras únicas. A ICD demonstra uma Taxa de Sucesso de Ataque (ASR) superior em diversos benchmarks em comparação com métodos existentes, fornecendo evidências teóricas e mecânicas de sua eficácia.

LLMs jailbreaking security adversarial attacks

RESEARCHDEV.to AI·08/05/2026

Tiny weight edits improve LLM safety

Pequenas edições direcionadas de pesos em cabeças de atenção específicas de LLMs, como demonstrado pelo método ASGuard, podem reduzir drasticamente as taxas de sucesso de jailbreaks. Essa abordagem cirúrgica corrige vulnerabilidades, como ataques de mudança de tempo verbal, ao amortecer as ativações nas cabeças de atenção relevantes, aumentando a segurança sem comprometer a competência geral do modelo.

AI models jailbreaking security LLM safety

RESEARCHDEV.to AI·15/04/2026

Scalable and Transferable Black-Box Jailbreaks for Language Models via PersonaModulation

Este conteúdo apresenta PersonaModulation, uma técnica inovadora para criar jailbreaks escaláveis e transferíveis em caixas-pretas para modelos de linguagem. O método contorna eficazmente os mecanismos de segurança de LLMs sem exigir acesso interno ao modelo.

language models jailbreaking PersonaModulation Black-Box Attacks