RESEARCH27
Tiny weight edits improve LLM safety
DEV.to AI·8 de maio de 2026
Pequenas edições direcionadas de pesos em cabeças de atenção específicas de LLMs, como demonstrado pelo método ASGuard, podem reduzir drasticamente as taxas de sucesso de jailbreaks. Essa abordagem cirúrgica corrige vulnerabilidades, como ataques de mudança de tempo verbal, ao amortecer as ativações nas cabeças de atenção relevantes, aumentando a segurança sem comprometer a competência geral do modelo.
Ler original ↗