← heapsort-ai

Cohen's Kappa

2 items

ARTICLEDEV.to AI·il y a 3h

More eval traces will not stabilize your kappa. Stratify the ones you have

Le contenu discute de l'instabilité de l'accord LLM en tant que juge (kappa de Cohen) qui variait fortement d'une semaine à l'autre sans changement de grille. L'augmentation de la taille de l'échantillon n'a pas stabilisé la métrique; la solution a été de stratifier les échantillons existants par classe de score et dimensions d'échec, démontrant que la composition, et non le volume, était le levier.

62
ARTICLEDEV.to AI·il y a 5j

Calibration set size for LLM-as-judge: when 50 traces is enough and when 200 is mandatory

La taille de l'ensemble de calibration étiqueté par des humains pour valider un LLM-as-judge dépend de l'équilibre des étiquettes. Cinquante traces sont suffisantes pour des critères binaires équilibrés, mais 200 ou plus sont nécessaires pour des catégories rares et coûteuses, comme les violations de sécurité, car la variance du kappa est dominée par les exemples de la classe minoritaire.

28