heapsort
RESEARCH27

Tiny weight edits improve LLM safety

DEV.to AI·8. Mai 2026

Gezielte, geringfügige Gewichtsänderungen an spezifischen Aufmerksamkeitsköpfen in LLMs, wie durch die ASGuard-Methode gezeigt, können die Erfolgsraten von Jailbreaks drastisch senken. Dieser chirurgische Ansatz behebt Schwachstellen, wie Angriffe durch Zeitformwechsel, indem er die Aktivierungen in relevanten Aufmerksamkeitsköpfen dämpft und so die Sicherheit erheblich verbessert, ohne die Gesamtkompetenz des Modells zu beeinträchtigen.

Original lesen