AI metrics

6 items

ARTICLEDEV.to AI·il y a 4h

More eval traces will not stabilize your kappa. Stratify the ones you have

Le contenu discute de l'instabilité de l'accord LLM en tant que juge (kappa de Cohen) qui variait fortement d'une semaine à l'autre sans changement de grille. L'augmentation de la taille de l'échantillon n'a pas stabilisé la métrique; la solution a été de stratifier les échantillons existants par classe de score et dimensions d'échec, démontrant que la composition, et non le volume, était le levier.

AI metrics sampling strategy Cohen's Kappa LLM evaluation

ARTICLEDEV.to AI·17/04/2026

lantea AI

Lantea.ai présente un système de métriques propriétaire pour évaluer l'IA, remettant en question l'approche traditionnelle basée sur l'échelle des paramètres. L'entreprise définit cinq indicateurs essentiels (Divergence, Données de Puissance de Calcul, Entrée de Densité de Signal, Précision de Sortie, Raffinement) qui mesurent la créativité, l'efficacité computationnelle, la robustesse logique et la capacité de raffinage des connaissances.

AI metrics performance measurement cognitive AI AI evaluation

RESEARCHDEV.to AI·14/04/2026

Don't forget, there is more than forgetting: new metrics for Continual Learning

Ce contenu présente de nouvelles métriques pour l'Apprentissage Continu, élargissant l'évaluation au-delà de la simple prévention de l'oubli catastrophique. Il propose une vision plus complète pour mesurer les performances des modèles d'IA dans les scénarios d'apprentissage séquentiel.

AI metrics evaluation machine learning Catastrophic Forgetting

ARTICLEDEV.to AI·il y a 8j

Are we measuring AI cost wrong by obsessing over token price?

Le prix du token est une métrique facile mais trompeuse pour le coût de l'IA. La véritable mesure devrait être le coût par tâche accomplie, car des tokens moins chers pourraient ne pas être plus économiques s'ils nécessitent plus de travail pour le même résultat utilisable.

AI cost AI metrics cost per task token pricing

ARTICLEDEV.to AI·il y a 7j

Transcription accuracy vs. transcription quality: why the gap matters

Cet article aborde la distinction cruciale entre la précision de la transcription, souvent mesurée par le Taux d'Erreur de Mots (WER), et la qualité perçue de la transcription. Il soutient que, bien que le WER quantifie les mots corrects, il ne tient pas compte de la satisfaction de l'utilisateur, qui est significativement impactée par des éléments comme l'étiquetage des locuteurs, le formatage et la ponctuation, créant ainsi un "fossé de qualité perçue".

user perception transcription AI metrics Speech-to-Text

RESEARCHarXiv CS.CL·15/04/2026

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Cette recherche présente le "Filtered Reasoning Score", une nouvelle métrique conçue pour évaluer la qualité du raisonnement dans les modèles d'IA. Elle se concentre spécifiquement sur l'évaluation du raisonnement apparent dans les traces les plus sûres ou les sorties les plus confiantes d'un modèle.

AI metrics machine learning Reasoning AI evaluation