RESEARCHarXiv CS.AI·il y a 18j
Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs
Cette recherche introduit MOOD, un benchmark conçu pour étudier la détection des échecs d'alignement hors distribution (OOD) dans les grands modèles de langage (LLMs) à l'aide de pipelines de surveillance. Elle propose de combiner des modèles de garde avec des détecteurs OOD pour améliorer la généralisation des classificateurs de sécurité, qui échouent souvent dans les scénarios OOD.
27