LLM safety

3 items

RESEARCHarXiv CS.CL·il y a 5j

Expert-Aware Refusal Steering

Cet article étend la direction de refus aux grands modèles de langage Mixture-of-Experts (MoE), constatant que la performance de direction n'est pas inhibée par l'architecture MoE. Il propose des méthodes de direction de refus conscientes des experts, montrant que le comportement de refus peut être efficacement dirigé en se basant sur la sortie d'un seul expert.

MoE models inference refusal steering AI alignment

RESEARCHDEV.to AI·08/05/2026

Tiny weight edits improve LLM safety

De minuscules modifications ciblées des poids dans des têtes d'attention spécifiques des LLMs, comme le montre la méthode ASGuard, peuvent réduire drastiquement les taux de succès des jailbreaks. Cette approche chirurgicale corrige les vulnérabilités, telles que les attaques de changement de temps, en atténuant les activations dans les têtes d'attention pertinentes, améliorant considérablement la sécurité tout en maintenant la compétence globale du modèle.

AI models jailbreaking security LLM safety

ARTICLEDEV.to AI·il y a 16j

I open-sourced a 4-agent blood-panel triage workflow on heym, with a deterministic Python safety gate that runs BEFORE any LLM token

Un flux de travail multi-agents à 4 agents a été développé pour transformer les bilans sanguins bruts en rapports structurés d'éducation des patients. L'architecture comprend une porte de sécurité Python déterministe qui s'exécute avant tout jeton LLM, prévenant les défaillances critiques pour les valeurs de laboratoire d'urgence.

patient education deterministic AI LLM safety healthcare AI