RESEARCHarXiv CS.AI·hace 17d
Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs
Esta investigación introduce MOOD, un benchmark diseñado para estudiar la detección de fallos de alineación fuera de distribución (OOD) en grandes modelos de lenguaje (LLMs) mediante pipelines de monitoreo. Propone combinar modelos de guardia con detectores OOD para mejorar la generalización de los clasificadores de seguridad, que a menudo fallan en escenarios OOD.
27