LLM safety

3 items

RESEARCHarXiv CS.CL·vor 6T

Expert-Aware Refusal Steering

Diese Arbeit erweitert die Verweigerungslenkung auf Mixture-of-Experts (MoE) große Sprachmodelle und stellt fest, dass die Lenkleistung durch die MoE-Architektur nicht beeinträchtigt wird. Sie schlägt expertenbewusste Verweigerungslenkungsmethoden vor, die Routing-Muster von Experten nutzen und zeigt, dass das Verweigerungsverhalten effektiv basierend auf der Ausgabe eines einzelnen Experten gesteuert werden kann.

MoE models inference refusal steering AI alignment

RESEARCHDEV.to AI·5/8/2026

Tiny weight edits improve LLM safety

Gezielte, geringfügige Gewichtsänderungen an spezifischen Aufmerksamkeitsköpfen in LLMs, wie durch die ASGuard-Methode gezeigt, können die Erfolgsraten von Jailbreaks drastisch senken. Dieser chirurgische Ansatz behebt Schwachstellen, wie Angriffe durch Zeitformwechsel, indem er die Aktivierungen in relevanten Aufmerksamkeitsköpfen dämpft und so die Sicherheit erheblich verbessert, ohne die Gesamtkompetenz des Modells zu beeinträchtigen.

AI models jailbreaking security LLM safety

ARTICLEDEV.to AI·vor 17T

I open-sourced a 4-agent blood-panel triage workflow on heym, with a deterministic Python safety gate that runs BEFORE any LLM token

Ein 4-Agenten-Multi-Agenten-Workflow wurde entwickelt, um rohe Blutbilder in strukturierte Patientenaufklärungsberichte umzuwandeln. Die Architektur umfasst ein deterministisches Python-Sicherheitstor, das vor jedem LLM-Token ausgeführt wird, um kritische Fehler bei Notfall-Laborwerten zu verhindern.

patient education deterministic AI LLM safety healthcare AI