Model Monitoring

2 items

RESEARCHarXiv CS.AI·vor 17T

Benchmarking and Improving Monitors for Out-Of-Distribution Alignment Failure in LLMs

Diese Forschung stellt MOOD vor, einen Benchmark zur Untersuchung der Erkennung von Out-Of-Distribution (OOD)-Ausrichtungsfehlern in großen Sprachmodellen (LLMs) mithilfe von Überwachungspipelines. Es wird vorgeschlagen, Schutzmodelle mit OOD-Detektoren zu kombinieren, um die Generalisierung von Sicherheitsklassifikatoren zu verbessern, die in OOD-Szenarien oft versagen.

Model Monitoring OOD Detection LLMs Benchmarking

ARTICLEWeights & Biases·11/8/2019

Tracking the heartbeat of ML models by exploring gradients

Dieser Inhalt untersucht Methoden zur Überwachung des Verhaltens von Machine-Learning-Modellen durch die Analyse von Gradienten. Er beschreibt, wie der "Herzschlag" dieser Modelle verfolgt werden kann, um deren Leistung und Stabilität zu gewährleisten.

Model Monitoring machine learning Gradients AI development