Cohen's Kappa

2 items

ARTICLEDEV.to AI·vor 3Std

More eval traces will not stabilize your kappa. Stratify the ones you have

Der Inhalt behandelt die Instabilität der LLM-als-Richter-Übereinstimmung (Cohens Kappa), die wöchentlich schwankte, obwohl sich die Bewertungsrubrik nicht änderte. Eine Erhöhung der Stichprobengröße brachte keine Stabilität; die Lösung bestand darin, die vorhandenen Proben nach Bewertungsklassen und bekannten Fehlerdimensionen zu schichten, was die Varianz stärker reduzierte als die bloße Verdoppelung der Stichprobengröße.

AI metrics sampling strategy Cohen's Kappa LLM evaluation

ARTICLEDEV.to AI·vor 5T

Calibration set size for LLM-as-judge: when 50 traces is enough and when 200 is mandatory

Die Größe des von Menschen etikettierten Kalibrierungssatzes zur Validierung eines LLM-as-judge hängt von der Ausgewogenheit der Labels ab. Fünfzig stratifizierte Spuren reichen für ausgewogene binäre Kriterien aus, aber für seltene, aber kostspielige Kategorien wie Sicherheitsverletzungen sind 200 oder mehr obligatorisch, da die Varianz des Kappa durch die Anzahl der Minderheitsklasse-Beispiele dominiert wird.

LLM-as-judge Calibration evaluation sample size