RESEARCH27

Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs

arXiv CS.AI·23 de mayo de 2026

Esta investigación introduce MOOD, un benchmark diseñado para estudiar la detección de fallos de alineación fuera de distribución (OOD) en grandes modelos de lenguaje (LLMs) mediante pipelines de monitoreo. Propone combinar modelos de guardia con detectores OOD para mejorar la generalización de los clasificadores de seguridad, que a menudo fallan en escenarios OOD.

Model Monitoring OOD Detection LLMs Benchmarking AI safety

Leer original ↗