RESEARCH27
Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs
arXiv CS.AI·23 mai 2026
Cette recherche introduit MOOD, un benchmark conçu pour étudier la détection des échecs d'alignement hors distribution (OOD) dans les grands modèles de langage (LLMs) à l'aide de pipelines de surveillance. Elle propose de combiner des modèles de garde avec des détecteurs OOD pour améliorer la généralisation des classificateurs de sécurité, qui échouent souvent dans les scénarios OOD.
Lire l'original ↗