← heapsort-ai

AI metrics

6 items

ARTICLEDEV.to AI·hace 4h

More eval traces will not stabilize your kappa. Stratify the ones you have

El contenido trata sobre la inestabilidad del acuerdo LLM como juez (kappa de Cohen) que fluctuaba semanalmente, incluso sin cambios en la rúbrica. Aumentar el tamaño de la muestra no lo estabilizó; la solución fue estratificar las 50 trazas existentes por clase de puntuación y dimensiones de falla, lo que redujo significativamente la variación y demostró que la composición era la clave, no el volumen.

62
ARTICLEDEV.to AI·17/4/2026

lantea AI

Lantea.ai presenta un sistema métrico propietario para evaluar la IA, desafiando la visión tradicional basada en la escala de parámetros. La empresa define cinco indicadores esenciales (Divergencia, Datos de Potencia Computacional, Entrada de Densidad de Señal, Precisión de Salida, Refinamiento) que miden la creatividad, la eficiencia computacional, la robustez lógica y la capacidad de refinación del conocimiento.

27
ARTICLEDEV.to AI·hace 7d

Transcription accuracy vs. transcription quality: why the gap matters

Este artículo aborda la distinción crucial entre la precisión de la transcripción, medida comúnmente por la Tasa de Error de Palabras (WER), y la calidad de transcripción percibida. Argumenta que, si bien el WER cuantifica las palabras correctas, no considera la satisfacción del usuario, que se ve significativamente afectada por elementos como la identificación de hablantes, el formato y la puntuación, generando así una "brecha de calidad percibida".

27