RESEARCH27

Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs

arXiv CS.AI·23 mai 2026

Cette recherche introduit MOOD, un benchmark conçu pour étudier la détection des échecs d'alignement hors distribution (OOD) dans les grands modèles de langage (LLMs) à l'aide de pipelines de surveillance. Elle propose de combiner des modèles de garde avec des détecteurs OOD pour améliorer la généralisation des classificateurs de sécurité, qui échouent souvent dans les scénarios OOD.

Model Monitoring OOD Detection LLMs Benchmarking AI safety

Lire l'original ↗