← heapsort-ai

sample size

1 items

ARTICLEDEV.to AI·hace 5d

Calibration set size for LLM-as-judge: when 50 traces is enough and when 200 is mandatory

El tamaño del conjunto de calibración etiquetado por humanos para validar un LLM-as-judge depende del equilibrio de las etiquetas. Cincuenta rastros son suficientes para criterios binarios equilibrados, pero se requieren 200 o más para categorías raras pero costosas, como las violaciones de seguridad, ya que la varianza de kappa está dominada por los ejemplos de la clase minoritaria.

28