← heapsort-ai

Model Monitoring

2 items

RESEARCHarXiv CS.AI·hace 17d

Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs

Esta investigación introduce MOOD, un benchmark diseñado para estudiar la detección de fallos de alineación fuera de distribución (OOD) en grandes modelos de lenguaje (LLMs) mediante pipelines de monitoreo. Propone combinar modelos de guardia con detectores OOD para mejorar la generalización de los clasificadores de seguridad, que a menudo fallan en escenarios OOD.

27