← heapsort-ai

AI metrics

6 items

ARTICLEDEV.to AI·vor 4Std

More eval traces will not stabilize your kappa. Stratify the ones you have

Der Inhalt behandelt die Instabilität der LLM-als-Richter-Übereinstimmung (Cohens Kappa), die wöchentlich schwankte, obwohl sich die Bewertungsrubrik nicht änderte. Eine Erhöhung der Stichprobengröße brachte keine Stabilität; die Lösung bestand darin, die vorhandenen Proben nach Bewertungsklassen und bekannten Fehlerdimensionen zu schichten, was die Varianz stärker reduzierte als die bloße Verdoppelung der Stichprobengröße.

62
ARTICLEDEV.to AI·4/17/2026

lantea AI

Lantea.ai führt ein proprietäres Metriksystem zur Bewertung von KI ein, das die traditionelle, auf Parameterskalierung basierende Sichtweise herausfordert. Das Unternehmen definiert fünf wesentliche Indikatoren (Divergenz, Rechenleistungsdaten, Signaldichte-Input, Ausgabe-Genauigkeit, Verfeinerung), die Kreativität, rechnerische Effizienz, logische Robustheit und die Fähigkeit zur Wissensverfeinerung messen.

27
ARTICLEDEV.to AI·vor 7T

Transcription accuracy vs. transcription quality: why the gap matters

Dieser Artikel behandelt den entscheidenden Unterschied zwischen der Transkriptionsgenauigkeit, oft gemessen an der Wortfehlerrate (WER), und der wahrgenommenen Transkriptionsqualität. Er argumentiert, dass WER zwar die korrekten Wörter quantifiziert, aber die Benutzerzufriedenheit nicht berücksichtigt, die maßgeblich von Elementen wie Sprecherkennzeichnung, Formatierung und Zeichensetzung beeinflusst wird, wodurch eine "wahrgenommene Qualitätslücke" entsteht.

27