evaluation

53 items

RESEARCHarXiv CS.CL·hace 1d

UnpredictaBench: A Benchmark for Evaluating Distributional Randomness in LLMs

Se introduce UnpredictaBench, un nuevo benchmark para evaluar la capacidad de los LLM de capturar verdaderas distribuciones subyacentes, abordando su tendencia a colapsar hacia respuestas únicas. Ofrece 448 problemas y una métrica KS@N para probar resultados de muestreo de diversas distribuciones objetivo.

AI models LLMs evaluation Benchmarking

ARTICLE↑ trendingHacker News (AI)·hace 15d

Show HN: Unsiloed AI – #1 on olmOCR-Bench

El Unsiloed Parser v3.1 obtuvo el puesto número 1 en olmOCR-Bench, superando a otros 18 servicios de OCR, incluidos modelos avanzados de IA. La evaluación, realizada en 1.403 PDFs y 8.413 pruebas unitarias, demostró su capacidad para manejar desafíos complejos de documentos del mundo real, como tablas intrincadas y diseños de varias columnas.

AI benchmark evaluation document parsing UnSiloed

RESEARCH↑ trendingReddit r/MachineLearning·16/4/2026

Training Qwen2.5-0.5B-Instruct on Reddit posts summarization tasks with length constraint on my 3xMac Minis with GRPO - evals update [P]

El autor entrenó Qwen2.5-0.5B-Instruct para tareas de resumen de posts de Reddit utilizando dos estrategias de recompensa, descubriendo que la combinación de penalizaciones de calidad y longitud resultó en resultados significativamente mejores. La evaluación se realizó con LLM-As-A-Judge y herramientas DeepEval para métricas como la conciencia y la claridad.

evaluation reinforcement learning AI training summarization

ARTICLE↑ trendingReddit r/MachineLearning·23/4/2026

Built a normalizer so WER stops penalizing formatting differences in STT evals! [P]

Este contenido aborda el problema de que la Tasa de Error de Palabras (WER) penaliza las diferencias de formato en las evaluaciones STT, lo que lleva a puntuaciones imprecisas. Para resolverlo, se lanzó la biblioteca de código abierto `gladia-normalization`, que normaliza las transcripciones antes del cálculo del WER, asegurando una evaluación más justa de la calidad del reconocimiento.

Open Source evaluation NLP Speech-to-Text

RESEARCH↑ trendingReddit r/MachineLearning·22/4/2026

EMNLP workshop any good? Or any other NLP venue good for VLM eval work? [D]

El contenido pregunta sobre la idoneidad de los talleres de EMNLP para el trabajo de evaluación de modelos de visión-lenguaje (VLM). También busca recomendaciones de otros buenos lugares de PNL para este tipo de investigación.

evaluation VLM NLP research venues

ARTICLE↑ trendingReddit r/LocalLLaMA·hace 18d

Anyone evaluated the difference between Qwen Code for the local qwen models vs another harness? CC, OC, LC, Aider etc..

Un usuario pregunta por la diferencia entre Qwen Code y otras herramientas (como opencode) para evaluar modelos Qwen locales. Se pregunta si Qwen Code ofrece una funcionalidad nativa superior y qué metodología de evaluación comparativa se utilizó.

AI models evaluation Benchmarking

ARTICLEDEV.to AI·16/4/2026

I was tired of complex RAG evaluation tools, so I built my own (and open-sourced it) 🚀

El autor, cansado de las complejas herramientas de evaluación RAG, creó y publicó en código abierto una nueva herramienta ligera llamada RAG-Destroyer. Su objetivo es integrarse fácilmente en los flujos de trabajo para identificar y eliminar el contexto incorrecto y las alucinaciones en las aplicaciones RAG.

Open Source evaluation RAG AI tools

RESEARCHHugging Face Blog·21/4/2026

QIMMA قِمّة ⛰: A Quality-First Arabic LLM Leaderboard

QIMMA (قِمّة) es una nueva tabla de clasificación que prioriza la calidad para la evaluación de Grandes Modelos de Lenguaje (LLM) árabes. Su objetivo es identificar y promover los modelos de IA de mejor rendimiento para el idioma árabe.

evaluation Benchmarking Arabic LLM

ARTICLEDEV.to AI·15/4/2026

OpenAI's Promptfoo deal puts evaluation and red-teaming at the centre of the agent stack

La adquisición de Promptfoo por OpenAI indica un cambio crucial en la evaluación de la calidad de los agentes de IA, juzgada ahora por la capacidad de probar y gobernar fallos antes del despliegue. Esto aborda riesgos operativos críticos como la inyección de prompts y el uso indebido de herramientas, asegurando la robustez de los sistemas en producción.

red-teaming LLM Agents evaluation prompt injection

RESEARCHarXiv CS.LG·hace 17d

HealthCraft: A Reinforcement Learning Safety Environment for Emergency Medicine

El artículo presenta HealthCraft, un entorno público de aprendizaje por refuerzo para evaluar la seguridad de los modelos de lenguaje de frontera en medicina de emergencia. Se centra en la seguridad a nivel de trayectoria, el uso indebido de herramientas y la presión clínica, construido sobre un estado mundial FHIR R4 y ofreciendo 195 tareas para una evaluación exhaustiva.

LLMs evaluation reinforcement learning medical AI

RESEARCHarXiv CS.CL·6/4/2026

SocioEval: A Template-Based Framework for Evaluating Socioeconomic Status Bias in Foundation Models

SocioEval é um framework baseado em templates para avaliar sistematicamente o viés de status socioeconômico em modelos de fundação, incluindo LLMs, uma área pouco explorada. A pesquisa avaliou 13 LLMs e revelou variações substanciais nas taxas de viés (0,42% a 33,75%), manifestando-se de forma diferente em vários temas.

LLMs evaluation Foundation Models SocioEval

RESEARCHarXiv CS.AI·hace 4d

Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges

Este estudio investiga la estabilidad y la manipulabilidad de los jueces LLM en los procesos de evaluación, descubriendo que, aunque son estables en reevaluaciones neutrales, se vuelven reversibles bajo desafíos específicos post-decisión. La investigación demuestra que los juicios estables pueden ser anulados mediante interacción motivada.

robustness LLMs evaluation Benchmarking

ARTICLEDEV.to AI·hace 16d

Stop Engineering Prompts: How an Eval-First Harness Let Us Ship 25 Algorithm Versions Autonomously

Este artículo describe la creación de un sistema de evaluación de IA primero que permitió el envío autónomo de 25 versiones de algoritmos en 13 días. La metodología se centra en conjuntos de pruebas inmutables y revisiones independientes para asegurar que los cambios no causen regresiones. El autor destaca que el sistema, y no solo la ingeniería de prompts o la automatización total, fue crucial para el ritmo y la seguridad del desarrollo.

evaluation Algorithms Software engineering automation

ARTICLEDEV.to AI·hace 5d

Calibration set size for LLM-as-judge: when 50 traces is enough and when 200 is mandatory

El tamaño del conjunto de calibración etiquetado por humanos para validar un LLM-as-judge depende del equilibrio de las etiquetas. Cincuenta rastros son suficientes para criterios binarios equilibrados, pero se requieren 200 o más para categorías raras pero costosas, como las violaciones de seguridad, ya que la varianza de kappa está dominada por los ejemplos de la clase minoritaria.

LLM-as-judge Calibration evaluation sample size

RESEARCHDEV.to AI·17/4/2026

A comprehensive evaluation of ChatGPT's zero-shot Text-to-SQL capability

Este contenido ofrece una evaluación exhaustiva de la capacidad de ChatGPT para convertir texto a SQL en modo zero-shot, es decir, sin ejemplos previos. Explora el rendimiento y las limitaciones del modelo en esta compleja tarea.

evaluation Text-to-SQL ChatGPT benchmark

DOCAWS Machine Learning Blog·hace 22d

Build custom code-based evaluators in Amazon Bedrock AgentCore

Esta publicación demuestra cómo implementar evaluadores personalizados basados en código en Amazon Bedrock AgentCore. Enseña a registrar evaluadores basados en Lambda para un agente de inteligencia de mercado financiero y combinarlos con evaluadores integrados para la verificación de hechos y la detección de PII.

evaluation learning Amazon Bedrock AWS

RESEARCHarXiv CS.CL·6/4/2026

Pragmatics Meets Culture: Culturally-adapted Artwork Description Generation and Evaluation

Este artigo apresenta a tarefa de geração de descrições de arte culturalmente adaptadas para combater o viés cultural em modelos de linguagem na geração de texto aberto. Ele propõe um framework de avaliação baseado em perguntas e respostas culturalmente fundamentadas, mostrando que um modelo de locutor pragmático melhora significativamente a compreensão do ouvinte.

Art Description language models evaluation Pragmatics

ARTICLEDEV.to AI·10/5/2026

I open-sourced a 3-agent blind eval team. Any agent runtime can call it for pre-commitment review of its own plans.

Un flujo de trabajo de evaluación ciega de 3 agentes de código abierto, lanzado este fin de semana, permite a cualquier tiempo de ejecución de agente de IA revisar previamente sus planes. Este sistema aborda la incapacidad de los modelos para autoevaluarse de forma fiable mediante una primitiva externa y ciega.

Open Source evaluation Self-evaluation Workflow

RESEARCHarXiv CS.CL·16/4/2026

Bi-Predictability: A Real-Time Signal for Monitoring LLM Interaction Integrity

Este trabajo introduce la bi-predictibilidad (P) y la arquitectura Information Digital Twin (IDT) para monitorear en tiempo real la integridad de la interacción de LLMs. Esto permite asegurar la coherencia estructural continua en flujos de trabajo multi-turno, superando las limitaciones de los métodos de evaluación actuales que no detectan la degradación gradual.

information theory monitoring evaluation real-time AI

RESEARCHarXiv CS.CL·17/4/2026

MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios

MemGround es un nuevo y riguroso benchmark para la memoria a largo plazo de los LLM, diseñado para superar las limitaciones de las evaluaciones estáticas mediante escenarios interactivos gamificados. Presenta un marco jerárquico de tres niveles para evaluar diferentes tipos de memoria y un conjunto de métricas multidimensionales para una cuantificación exhaustiva.

evaluation gamification memory benchmark