AI metrics

6 items

ARTICLEDEV.to AI·hace 4h

More eval traces will not stabilize your kappa. Stratify the ones you have

El contenido trata sobre la inestabilidad del acuerdo LLM como juez (kappa de Cohen) que fluctuaba semanalmente, incluso sin cambios en la rúbrica. Aumentar el tamaño de la muestra no lo estabilizó; la solución fue estratificar las 50 trazas existentes por clase de puntuación y dimensiones de falla, lo que redujo significativamente la variación y demostró que la composición era la clave, no el volumen.

AI metrics sampling strategy Cohen's Kappa LLM evaluation

ARTICLEDEV.to AI·17/4/2026

lantea AI

Lantea.ai presenta un sistema métrico propietario para evaluar la IA, desafiando la visión tradicional basada en la escala de parámetros. La empresa define cinco indicadores esenciales (Divergencia, Datos de Potencia Computacional, Entrada de Densidad de Señal, Precisión de Salida, Refinamiento) que miden la creatividad, la eficiencia computacional, la robustez lógica y la capacidad de refinación del conocimiento.

AI metrics performance measurement cognitive AI AI evaluation

RESEARCHDEV.to AI·14/4/2026

Don't forget, there is more than forgetting: new metrics for Continual Learning

Este contenido presenta nuevas métricas para el Aprendizaje Continuo, ampliando la evaluación más allá de la prevención del olvido catastrófico. Propone una visión más completa para medir el rendimiento de los modelos de IA en escenarios de aprendizaje secuencial.

AI metrics evaluation machine learning Catastrophic Forgetting

ARTICLEDEV.to AI·hace 8d

Are we measuring AI cost wrong by obsessing over token price?

El precio del token es una métrica fácil pero engañosa para el costo de la IA. La medida real debería ser el costo por tarea finalizada, ya que los tokens más baratos podrían no ser más económicos si requieren más trabajo para el mismo resultado útil.

AI cost AI metrics cost per task token pricing

ARTICLEDEV.to AI·hace 7d

Transcription accuracy vs. transcription quality: why the gap matters

Este artículo aborda la distinción crucial entre la precisión de la transcripción, medida comúnmente por la Tasa de Error de Palabras (WER), y la calidad de transcripción percibida. Argumenta que, si bien el WER cuantifica las palabras correctas, no considera la satisfacción del usuario, que se ve significativamente afectada por elementos como la identificación de hablantes, el formato y la puntuación, generando así una "brecha de calidad percibida".

user perception transcription AI metrics Speech-to-Text

RESEARCHarXiv CS.CL·15/4/2026

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Esta investigación introduce el "Filtered Reasoning Score", una métrica novedosa diseñada para evaluar la calidad del razonamiento en modelos de IA. Se enfoca específicamente en evaluar el razonamiento evidente en las salidas o "traces" más seguros de un modelo.

AI metrics machine learning Reasoning AI evaluation