ARTICLEDEV.to AI·hace 5d
Calibration set size for LLM-as-judge: when 50 traces is enough and when 200 is mandatory
El tamaño del conjunto de calibración etiquetado por humanos para validar un LLM-as-judge depende del equilibrio de las etiquetas. Cincuenta rastros son suficientes para criterios binarios equilibrados, pero se requieren 200 o más para categorías raras pero costosas, como las violaciones de seguridad, ya que la varianza de kappa está dominada por los ejemplos de la clase minoritaria.
28