RESEARCH27
Tiny weight edits improve LLM safety
DEV.to AI·8 de mayo de 2026
Pequeñas ediciones de peso dirigidas a cabezas de atención específicas en LLMs, como demuestra el método ASGuard, pueden reducir drásticamente las tasas de éxito de los jailbreaks. Este enfoque quirúrgico corrige vulnerabilidades, como los ataques de cambio de tiempo verbal, al amortiguar las activaciones en las cabezas de atención relevantes, mejorando significativamente la seguridad sin comprometer la competencia general del modelo.
Leer original ↗