Cohen's Kappa

2 items

ARTICLEDEV.to AI·2h atrás

More eval traces will not stabilize your kappa. Stratify the ones you have

O conteúdo aborda a instabilidade do acordo de LLM como juiz (kappa de Cohen) que oscilava semanalmente, mesmo sem mudanças na rubrica. Aumentar o tamanho da amostra não resolveu; a solução foi estratificar as amostras existentes por classe de pontuação e dimensões de falha, o que reduziu drasticamente a variação, demonstrando que a composição da amostra, e não o volume, era crucial.

AI metrics sampling strategy Cohen's Kappa LLM evaluation

ARTICLEDEV.to AI·5d atrás

Calibration set size for LLM-as-judge: when 50 traces is enough and when 200 is mandatory

O tamanho do conjunto de calibração rotulado por humanos para validar um LLM-as-judge depende do equilíbrio dos rótulos. Para critérios binários balanceados, 50 traços são suficientes, mas para categorias raras e caras, como violações de segurança, 200 ou mais são necessários devido à sensibilidade da variância do kappa à contagem de exemplos da classe minoritária.

LLM-as-judge Calibration evaluation sample size