RESEARCH27
Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs
arXiv CS.AI·23. Mai 2026
Diese Forschung stellt MOOD vor, einen Benchmark zur Untersuchung der Erkennung von Out-Of-Distribution (OOD)-Ausrichtungsfehlern in großen Sprachmodellen (LLMs) mithilfe von Überwachungspipelines. Es wird vorgeschlagen, Schutzmodelle mit OOD-Detektoren zu kombinieren, um die Generalisierung von Sicherheitsklassifikatoren zu verbessern, die in OOD-Szenarien oft versagen.
Original lesen ↗