RESEARCHarXiv CS.AI·vor 17T
Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs
Diese Forschung stellt MOOD vor, einen Benchmark zur Untersuchung der Erkennung von Out-Of-Distribution (OOD)-Ausrichtungsfehlern in großen Sprachmodellen (LLMs) mithilfe von Überwachungspipelines. Es wird vorgeschlagen, Schutzmodelle mit OOD-Detektoren zu kombinieren, um die Generalisierung von Sicherheitsklassifikatoren zu verbessern, die in OOD-Szenarien oft versagen.
27