RESEARCH27
Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs
arXiv CS.AI·23 de mayo de 2026
Esta investigación introduce MOOD, un benchmark diseñado para estudiar la detección de fallos de alineación fuera de distribución (OOD) en grandes modelos de lenguaje (LLMs) mediante pipelines de monitoreo. Propone combinar modelos de guardia con detectores OOD para mejorar la generalización de los clasificadores de seguridad, que a menudo fallan en escenarios OOD.
Leer original ↗