← heapsort-ai

jailbreaking

3 items

RESEARCHarXiv CS.CL·30/04/2026

One Word at a Time: Incremental Completion Decomposition Breaks LLM Safety

Esta pesquisa introduz a Decomposição Incremental de Completude (ICD), uma nova estratégia de jailbreak que explora as fraquezas nos mecanismos de segurança de LLMs ao elicitar sequências de palavras únicas. A ICD demonstra uma Taxa de Sucesso de Ataque (ASR) superior em diversos benchmarks em comparação com métodos existentes, fornecendo evidências teóricas e mecânicas de sua eficácia.

29
RESEARCHDEV.to AI·08/05/2026

Tiny weight edits improve LLM safety

Pequenas edições direcionadas de pesos em cabeças de atenção específicas de LLMs, como demonstrado pelo método ASGuard, podem reduzir drasticamente as taxas de sucesso de jailbreaks. Essa abordagem cirúrgica corrige vulnerabilidades, como ataques de mudança de tempo verbal, ao amortecer as ativações nas cabeças de atenção relevantes, aumentando a segurança sem comprometer a competência geral do modelo.

27