ARTICLE62
More eval traces will not stabilize your kappa. Stratify the ones you have
DEV.to AI·9 de junho de 2026
O conteúdo aborda a instabilidade do acordo de LLM como juiz (kappa de Cohen) que oscilava semanalmente, mesmo sem mudanças na rubrica. Aumentar o tamanho da amostra não resolveu; a solução foi estratificar as amostras existentes por classe de pontuação e dimensões de falha, o que reduziu drasticamente a variação, demonstrando que a composição da amostra, e não o volume, era crucial.
Ler original ↗