RESEARCH27

Tiny weight edits improve LLM safety

DEV.to AI·8 de maio de 2026

Pequenas edições direcionadas de pesos em cabeças de atenção específicas de LLMs, como demonstrado pelo método ASGuard, podem reduzir drasticamente as taxas de sucesso de jailbreaks. Essa abordagem cirúrgica corrige vulnerabilidades, como ataques de mudança de tempo verbal, ao amortecer as ativações nas cabeças de atenção relevantes, aumentando a segurança sem comprometer a competência geral do modelo.

AI models jailbreaking security LLM safety attention mechanisms

Ler original ↗