RESEARCH27

Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs

arXiv CS.AI·23. Mai 2026

Diese Forschung stellt MOOD vor, einen Benchmark zur Untersuchung der Erkennung von Out-Of-Distribution (OOD)-Ausrichtungsfehlern in großen Sprachmodellen (LLMs) mithilfe von Überwachungspipelines. Es wird vorgeschlagen, Schutzmodelle mit OOD-Detektoren zu kombinieren, um die Generalisierung von Sicherheitsklassifikatoren zu verbessern, die in OOD-Szenarien oft versagen.

Model Monitoring OOD Detection LLMs Benchmarking AI safety

Original lesen ↗