More eval traces will not stabilize your kappa. Stratify the ones you have
Der Inhalt behandelt die Instabilität der LLM-als-Richter-Übereinstimmung (Cohens Kappa), die wöchentlich schwankte, obwohl sich die Bewertungsrubrik nicht änderte. Eine Erhöhung der Stichprobengröße brachte keine Stabilität; die Lösung bestand darin, die vorhandenen Proben nach Bewertungsklassen und bekannten Fehlerdimensionen zu schichten, was die Varianz stärker reduzierte als die bloße Verdoppelung der Stichprobengröße.