ARTICLE62
More eval traces will not stabilize your kappa. Stratify the ones you have
DEV.to AI·9. Juni 2026
Der Inhalt behandelt die Instabilität der LLM-als-Richter-Übereinstimmung (Cohens Kappa), die wöchentlich schwankte, obwohl sich die Bewertungsrubrik nicht änderte. Eine Erhöhung der Stichprobengröße brachte keine Stabilität; die Lösung bestand darin, die vorhandenen Proben nach Bewertungsklassen und bekannten Fehlerdimensionen zu schichten, was die Varianz stärker reduzierte als die bloße Verdoppelung der Stichprobengröße.
Original lesen ↗