← heapsort-ai

AI metrics

6 items

ARTICLEDEV.to AI·il y a 4h

More eval traces will not stabilize your kappa. Stratify the ones you have

Le contenu discute de l'instabilité de l'accord LLM en tant que juge (kappa de Cohen) qui variait fortement d'une semaine à l'autre sans changement de grille. L'augmentation de la taille de l'échantillon n'a pas stabilisé la métrique; la solution a été de stratifier les échantillons existants par classe de score et dimensions d'échec, démontrant que la composition, et non le volume, était le levier.

62
ARTICLEDEV.to AI·17/04/2026

lantea AI

Lantea.ai présente un système de métriques propriétaire pour évaluer l'IA, remettant en question l'approche traditionnelle basée sur l'échelle des paramètres. L'entreprise définit cinq indicateurs essentiels (Divergence, Données de Puissance de Calcul, Entrée de Densité de Signal, Précision de Sortie, Raffinement) qui mesurent la créativité, l'efficacité computationnelle, la robustesse logique et la capacité de raffinage des connaissances.

27
ARTICLEDEV.to AI·il y a 7j

Transcription accuracy vs. transcription quality: why the gap matters

Cet article aborde la distinction cruciale entre la précision de la transcription, souvent mesurée par le Taux d'Erreur de Mots (WER), et la qualité perçue de la transcription. Il soutient que, bien que le WER quantifie les mots corrects, il ne tient pas compte de la satisfaction de l'utilisateur, qui est significativement impactée par des éléments comme l'étiquetage des locuteurs, le formatage et la ponctuation, créant ainsi un "fossé de qualité perçue".

27