ARTICLE28

Calibration set size for LLM-as-judge: when 50 traces is enough and when 200 is mandatory

DEV.to AI·4 de junho de 2026

O tamanho do conjunto de calibração rotulado por humanos para validar um LLM-as-judge depende do equilíbrio dos rótulos. Para critérios binários balanceados, 50 traços são suficientes, mas para categorias raras e caras, como violações de segurança, 200 ou mais são necessários devido à sensibilidade da variância do kappa à contagem de exemplos da classe minoritária.

LLM-as-judge Calibration evaluation sample size Cohen's Kappa

Ler original ↗