ARTICLE28

Calibration set size for LLM-as-judge: when 50 traces is enough and when 200 is mandatory

DEV.to AI·4 juin 2026

La taille de l'ensemble de calibration étiqueté par des humains pour valider un LLM-as-judge dépend de l'équilibre des étiquettes. Cinquante traces sont suffisantes pour des critères binaires équilibrés, mais 200 ou plus sont nécessaires pour des catégories rares et coûteuses, comme les violations de sécurité, car la variance du kappa est dominée par les exemples de la classe minoritaire.

LLM-as-judge Calibration evaluation sample size Cohen's Kappa

Lire l'original ↗