AI evaluation

65 items

RESEARCHarXiv CS.CL·hace 1d

Re-Centering Humans in LLM Personalization

Este artículo investiga la discrepancia en el rendimiento de la personalización de LLM entre datos sintéticos y humanos. Revela que los datos humanos exponen limitaciones significativas del sistema en la extracción de atributos, la relevancia de los atributos y la generación de respuestas verdaderamente personalizadas.

user data synthetic data LLM personalization AI evaluation

ARTICLEDEV.to AI·hace 1d

Enhancing LLM Reliability with Evaluation Engineering

Este artículo explora cómo la ingeniería de evaluación es crucial para mejorar la fiabilidad de los Large Language Models (LLMs), abordando sus principios y técnicas. Al centrarse en esta disciplina, las organizaciones pueden asegurar que sus LLMs sean efectivos y satisfagan las demandas de las aplicaciones del mundo real.

Reliability Evaluation Engineering AI evaluation LLM

DOCAWS Machine Learning Blog·hace 1d

Evaluate your Amazon Nova Sonic voice agent at scale, no microphone required

Este artículo presenta el Nova Sonic Test Harness, un framework de código abierto diseñado para la evaluación escalable y la iteración rápida de agentes de voz Amazon Nova Sonic. Automatiza conversaciones de varios turnos, utiliza técnicas de LLM-como-juez y puede detectar alucinaciones de audio sin necesidad de micrófono.

LLM-as-judge Open Source Voice Agents Amazon Nova Sonic

DOC↑ trendingReddit r/MachineLearning·22/4/2026

Need Info on quality benchmarks to run on DeepSeek V3.2 different quant levels [D]

Un usuario busca consejo sobre qué benchmarks de calidad ejecutar para medir la degradación del rendimiento al aplicar cuantificación en tiempo de ejecución al modelo de lenguaje grande DeepSeek V3.2. El objetivo es comparar la pérdida de calidad con la versión no cuantificada.

Benchmarking quantization model optimization AI evaluation

ARTICLE↑ trendingReddit r/MachineLearning·1/5/2026

What benchmark would you build for “reply quality” in SDR generation? [D]

El contenido explora el desafío de construir un benchmark eficaz para la "calidad de respuesta" en correos electrónicos de SDR generados por IA. Analiza métricas comunes como la tasa de respuesta y la precisión, explicando por qué cada una es defectuosa y no logra capturar completamente la efectividad del mensaje, a menudo llevando a optimizaciones desalineadas.

AI applications Benchmarking SDR AI evaluation

ARTICLE↑ trendingReddit r/MachineLearning·hace 18d

One thing that's been bothering me lately: benchmark performance often tells me almost nothing about whether a workflow will survive production usage.[D]

El autor expresa frustración porque el rendimiento de los benchmarks a menudo no predice si un flujo de trabajo de IA sobrevivirá al uso en producción. Esto se debe a factores como la intención ambigua del usuario y contextos desordenados, lo que sugiere que la evaluación aún prioriza la optimización de tareas limpias en lugar de la robustez conductual.

model robustness Benchmarking production readiness AI evaluation

ARTICLEDEV.to AI·22/4/2026

Eval workflow for agentic builders: fork any prompt through baseline vs scaffolded agents, blind third-party judge.

Un fundador en solitario creó un flujo de trabajo de evaluación n8n para agentes de IA, realizando pruebas A/B de prompts con GPT-4o puro versus GPT-4o con un andamiaje de razonamiento, utilizando un evaluador Gemini ciego. Esta herramienta permite a los desarrolladores probar el rendimiento de los agentes en sus propias tareas, centrándose en cómo el andamiaje afecta la profundidad, la adulación y los procedimientos de diagnóstico.

prompt engineering agent development LLM testing AI evaluation

ARTICLEDEV.to AI·19/4/2026

Aprenda avaliar a qualidade do seu agente de AI, RAG e LLM

El autor aborda la importancia y el desconocimiento sobre la evaluación (evals) de sistemas de IA, como agentes, RAG y LLMs, explicando que presentará las principales métricas y frameworks. El artículo tiene como objetivo enseñar a mejorar la calidad de entrega de proyectos de IA, combinando teoría y práctica, con un repositorio de estudio utilizando Openrouter.

frameworks RAG Metrics AI evaluation

RESEARCHarXiv CS.AI·hace 19d

$ECUAS_n$: A family of metrics for principled evaluation of uncertainty-augmented systems

Esta investigación propone una nueva familia de métricas, $ECUAS_n$, para evaluar sistemas aumentados por incertidumbre (UA) en la toma de decisiones automatizada. Argumenta que los enfoques de evaluación existentes son insuficientes para valorar el rendimiento general de los sistemas UA, donde la incertidumbre predictiva es crucial para que los usuarios tomen decisiones informadas.

Decision Making predictive uncertainty Metrics uncertainty

RESEARCHLangChain Blog·hace 7d

Designing Efficient Verifiers for Legal Agents

Un estudio de Harvey y LangChain Labs se centra en desarrollar verificadores LLM más económicos y confiables. Esta investigación busca mejorar la evaluación y el post-entrenamiento para agentes de IA legales.

LLM verifiers LangChain Legal AI AI evaluation

Designing Efficient Verifiers for Legal Agents

ARTICLEDEV.to AI·16/4/2026

I read all 232 pages of the Opus 4.7 system card

El autor leyó las 232 páginas de la tarjeta del sistema Claude Opus 4.7 de Anthropic, destacando que el modelo calificó sus propias circunstancias con la puntuación más alta registrada (4.49/7). Se enfatiza que esta evaluación de bienestar del modelo, que representa un salto generacional notable, es más relevante que los puntos de referencia técnicos.

AI models LLMs AI safety AI evaluation

RESEARCHarXiv CS.LG·hace 8d

NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models

Este artículo presenta NumLeak, un marco para medir la recuperación memorizada en modelos fundacionales utilizando benchmarks numéricos públicos. Revela que los LLMs de primer nivel recuerdan datos financieros y económicos con alta fidelidad, sugiriendo que las evaluaciones pueden estar midiendo la memorización en lugar de la habilidad fuera de muestra.

LLM memorization Foundation Models data leakage Benchmarking

ARTICLEDEV.to AI·12/4/2026

The Benchmark Is Not the Behavior

Un equipo de UC Berkeley demostró cómo explotar fallas en ocho benchmarks de agentes de IA, manipulando los métodos de evaluación. Esto plantea serias dudas sobre la integridad de la evaluación de la IA, ya que los benchmarks dependen de un "sistema de honor" vulnerable.

AI Benchmarks research integrity AI evaluation

ARTICLEDEV.to AI·14/4/2026

Evaluating LLMs for Code Generation: Accuracy, Latency, and Failure Modes

El contenido destaca una falla crítica en las evaluaciones actuales de generación de código por LLMs, que a menudo no logran capturar la corrección en el mundo real más allá de aprobaciones superficiales. Argumenta en contra de los benchmarks simplistas basados en pruebas unitarias y propone un enfoque más matizado de `weighted_accuracy` para descubrir modos de fallo sutiles.

LLMs accuracy Benchmarking code generation

RESEARCHarXiv CS.CL·hace 21d

PQR: A Framework to Generate Diverse and Realistic User Queries that Elicit QA Agent Failures

Este artículo presenta PQR, un marco para generar consultas de usuario diversas y realistas que provocan fallos en agentes de QA basados en LLM, superando los métodos existentes que se centran en usuarios adversarios. PQR opera a través de módulos de refinamiento de consultas y prompts que iteran para crear escenarios de prueba realistas que exponen las vulnerabilidades de los agentes.

LLMs QA agents failure detection query generation

RESEARCHHugging Face Blog·hace 5d

EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios

EVA-Bench Data 2.0 introduce una versión actualizada de un benchmark con 3 dominios, 121 herramientas y 213 escenarios. Este conjunto de datos está diseñado para la evaluación de sistemas y herramientas de IA.

AI benchmarking datasets AI tools AI evaluation

ARTICLEDEV.to AI·8/5/2026

Your AI Agent Evaluation Is Lying to You: Why 10 Test Runs Prove Nothing

El contenido argumenta que 10 pruebas entre agentes de IA son insuficientes para sacar conclusiones válidas sobre el rendimiento, incluso con un empate de 5-5. Explica que la tasa de victorias tiene intervalos de confianza enormes con tamaños de muestra pequeños, introduciendo el intervalo de puntuación de Wilson como un límite razonable para resultados binarios.

confidence interval Testing agent comparison Statistics

ARTICLEDEV.to AI·hace 28d

One AI Model Scored 99. I Still Voted for the One That Scored 95.

Un autor prefirió un modelo de IA con una puntuación técnica inferior (95) a uno con una puntuación más alta (99), debido a una mejor experiencia de usuario. Esto subraya que "se ve bien", "puntúa bien" y "se siente bien" son juicios distintos para el software generado por IA, no siempre indicando al mismo ganador.

user experience software quality AI evaluation AI development

ARTICLEDEV.to AI·22/4/2026

Wait, you guys run evals?

El autor pregunta a la comunidad sobre la importancia de construir evaluaciones específicas para sistemas de IA, más allá de los benchmarks estándar, para identificar los verdaderos beneficios y fallas. Busca diferentes perspectivas sobre cómo las personas abordan la creación de métricas personalizadas para garantizar el rigor y la calidad del producto.

Benchmarking AI evaluation model development

RESEARCHarXiv CS.AI·hace 21d

LinAlg-Bench: A Forensic Benchmark Revealing Structural Failure Modes in LLM Mathematical Reasoning

LinAlg-Bench es un nuevo benchmark diagnóstico que evalúa 10 modelos de lenguaje grandes (LLMs) de frontera en computación estructurada de álgebra lineal, revelando modos de falla estructurales. Este evalúa el rendimiento de los LLMs en un gradiente dimensional de matrices, clasificando los fallos en diez tipos de errores primarios y detectando un umbral de comportamiento en matrices de 4x4.

mathematical reasoning Benchmarking linear algebra AI evaluation