← heapsort-ai

AI evaluation

65 items

ARTICLE↑ trendingReddit r/MachineLearning·1/5/2026

What benchmark would you build for “reply quality” in SDR generation? [D]

El contenido explora el desafío de construir un benchmark eficaz para la "calidad de respuesta" en correos electrónicos de SDR generados por IA. Analiza métricas comunes como la tasa de respuesta y la precisión, explicando por qué cada una es defectuosa y no logra capturar completamente la efectividad del mensaje, a menudo llevando a optimizaciones desalineadas.

42
ARTICLE↑ trendingReddit r/MachineLearning·hace 18d

One thing that's been bothering me lately: benchmark performance often tells me almost nothing about whether a workflow will survive production usage.[D]

El autor expresa frustración porque el rendimiento de los benchmarks a menudo no predice si un flujo de trabajo de IA sobrevivirá al uso en producción. Esto se debe a factores como la intención ambigua del usuario y contextos desordenados, lo que sugiere que la evaluación aún prioriza la optimización de tareas limpias en lugar de la robustez conductual.

41
ARTICLEDEV.to AI·22/4/2026

Eval workflow for agentic builders: fork any prompt through baseline vs scaffolded agents, blind third-party judge.

Un fundador en solitario creó un flujo de trabajo de evaluación n8n para agentes de IA, realizando pruebas A/B de prompts con GPT-4o puro versus GPT-4o con un andamiaje de razonamiento, utilizando un evaluador Gemini ciego. Esta herramienta permite a los desarrolladores probar el rendimiento de los agentes en sus propias tareas, centrándose en cómo el andamiaje afecta la profundidad, la adulación y los procedimientos de diagnóstico.

35
ARTICLEDEV.to AI·19/4/2026

Aprenda avaliar a qualidade do seu agente de AI, RAG e LLM

El autor aborda la importancia y el desconocimiento sobre la evaluación (evals) de sistemas de IA, como agentes, RAG y LLMs, explicando que presentará las principales métricas y frameworks. El artículo tiene como objetivo enseñar a mejorar la calidad de entrega de proyectos de IA, combinando teoría y práctica, con un repositorio de estudio utilizando Openrouter.

33
RESEARCHarXiv CS.AI·hace 19d

$ECUAS_n$: A family of metrics for principled evaluation of uncertainty-augmented systems

Esta investigación propone una nueva familia de métricas, $ECUAS_n$, para evaluar sistemas aumentados por incertidumbre (UA) en la toma de decisiones automatizada. Argumenta que los enfoques de evaluación existentes son insuficientes para valorar el rendimiento general de los sistemas UA, donde la incertidumbre predictiva es crucial para que los usuarios tomen decisiones informadas.

30
ARTICLEDEV.to AI·16/4/2026

I read all 232 pages of the Opus 4.7 system card

El autor leyó las 232 páginas de la tarjeta del sistema Claude Opus 4.7 de Anthropic, destacando que el modelo calificó sus propias circunstancias con la puntuación más alta registrada (4.49/7). Se enfatiza que esta evaluación de bienestar del modelo, que representa un salto generacional notable, es más relevante que los puntos de referencia técnicos.

30
RESEARCHarXiv CS.LG·hace 8d

NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models

Este artículo presenta NumLeak, un marco para medir la recuperación memorizada en modelos fundacionales utilizando benchmarks numéricos públicos. Revela que los LLMs de primer nivel recuerdan datos financieros y económicos con alta fidelidad, sugiriendo que las evaluaciones pueden estar midiendo la memorización en lugar de la habilidad fuera de muestra.

29
ARTICLEDEV.to AI·14/4/2026

Evaluating LLMs for Code Generation: Accuracy, Latency, and Failure Modes

El contenido destaca una falla crítica en las evaluaciones actuales de generación de código por LLMs, que a menudo no logran capturar la corrección en el mundo real más allá de aprobaciones superficiales. Argumenta en contra de los benchmarks simplistas basados en pruebas unitarias y propone un enfoque más matizado de `weighted_accuracy` para descubrir modos de fallo sutiles.

28
RESEARCHarXiv CS.CL·hace 21d

PQR: A Framework to Generate Diverse and Realistic User Queries that Elicit QA Agent Failures

Este artículo presenta PQR, un marco para generar consultas de usuario diversas y realistas que provocan fallos en agentes de QA basados en LLM, superando los métodos existentes que se centran en usuarios adversarios. PQR opera a través de módulos de refinamiento de consultas y prompts que iteran para crear escenarios de prueba realistas que exponen las vulnerabilidades de los agentes.

28
ARTICLEDEV.to AI·8/5/2026

Your AI Agent Evaluation Is Lying to You: Why 10 Test Runs Prove Nothing

El contenido argumenta que 10 pruebas entre agentes de IA son insuficientes para sacar conclusiones válidas sobre el rendimiento, incluso con un empate de 5-5. Explica que la tasa de victorias tiene intervalos de confianza enormes con tamaños de muestra pequeños, introduciendo el intervalo de puntuación de Wilson como un límite razonable para resultados binarios.

28
ARTICLEDEV.to AI·22/4/2026

Wait, you guys run evals?

El autor pregunta a la comunidad sobre la importancia de construir evaluaciones específicas para sistemas de IA, más allá de los benchmarks estándar, para identificar los verdaderos beneficios y fallas. Busca diferentes perspectivas sobre cómo las personas abordan la creación de métricas personalizadas para garantizar el rigor y la calidad del producto.

28
RESEARCHarXiv CS.AI·hace 21d

LinAlg-Bench: A Forensic Benchmark Revealing Structural Failure Modes in LLM Mathematical Reasoning

LinAlg-Bench es un nuevo benchmark diagnóstico que evalúa 10 modelos de lenguaje grandes (LLMs) de frontera en computación estructurada de álgebra lineal, revelando modos de falla estructurales. Este evalúa el rendimiento de los LLMs en un gradiente dimensional de matrices, clasificando los fallos en diez tipos de errores primarios y detectando un umbral de comportamiento en matrices de 4x4.

28