Cohen's Kappa

2 items

ARTICLEDEV.to AI·hace 3h

More eval traces will not stabilize your kappa. Stratify the ones you have

El contenido trata sobre la inestabilidad del acuerdo LLM como juez (kappa de Cohen) que fluctuaba semanalmente, incluso sin cambios en la rúbrica. Aumentar el tamaño de la muestra no lo estabilizó; la solución fue estratificar las 50 trazas existentes por clase de puntuación y dimensiones de falla, lo que redujo significativamente la variación y demostró que la composición era la clave, no el volumen.

AI metrics sampling strategy Cohen's Kappa LLM evaluation

ARTICLEDEV.to AI·hace 5d

Calibration set size for LLM-as-judge: when 50 traces is enough and when 200 is mandatory

El tamaño del conjunto de calibración etiquetado por humanos para validar un LLM-as-judge depende del equilibrio de las etiquetas. Cincuenta rastros son suficientes para criterios binarios equilibrados, pero se requieren 200 o más para categorías raras pero costosas, como las violaciones de seguridad, ya que la varianza de kappa está dominada por los ejemplos de la clase minoritaria.

LLM-as-judge Calibration evaluation sample size