ARTICLE62
More eval traces will not stabilize your kappa. Stratify the ones you have
DEV.to AI·9 de junio de 2026
El contenido trata sobre la inestabilidad del acuerdo LLM como juez (kappa de Cohen) que fluctuaba semanalmente, incluso sin cambios en la rúbrica. Aumentar el tamaño de la muestra no lo estabilizó; la solución fue estratificar las 50 trazas existentes por clase de puntuación y dimensiones de falla, lo que redujo significativamente la variación y demostró que la composición era la clave, no el volumen.
Leer original ↗