RESEARCH27

Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs

arXiv CS.AI·23 de maio de 2026

Esta pesquisa apresenta MOOD, um benchmark projetado para estudar a detecção de falhas de alinhamento fora da distribuição (OOD) em grandes modelos de linguagem (LLMs) usando pipelines de monitoramento. Propõe-se combinar modelos de guarda com detectores OOD para melhorar a generalização de classificadores de segurança, que frequentemente falham em cenários OOD.

Model Monitoring OOD Detection LLMs Benchmarking AI safety

Ler original ↗