← heapsort-ai

evaluation

53 items

ARTICLE↑ trendingHacker News (AI)·hace 15d

Show HN: Unsiloed AI – #1 on olmOCR-Bench

El Unsiloed Parser v3.1 obtuvo el puesto número 1 en olmOCR-Bench, superando a otros 18 servicios de OCR, incluidos modelos avanzados de IA. La evaluación, realizada en 1.403 PDFs y 8.413 pruebas unitarias, demostró su capacidad para manejar desafíos complejos de documentos del mundo real, como tablas intrincadas y diseños de varias columnas.

42
RESEARCH↑ trendingReddit r/MachineLearning·16/4/2026

Training Qwen2.5-0.5B-Instruct on Reddit posts summarization tasks with length constraint on my 3xMac Minis with GRPO - evals update [P]

El autor entrenó Qwen2.5-0.5B-Instruct para tareas de resumen de posts de Reddit utilizando dos estrategias de recompensa, descubriendo que la combinación de penalizaciones de calidad y longitud resultó en resultados significativamente mejores. La evaluación se realizó con LLM-As-A-Judge y herramientas DeepEval para métricas como la conciencia y la claridad.

42
ARTICLE↑ trendingReddit r/MachineLearning·23/4/2026

Built a normalizer so WER stops penalizing formatting differences in STT evals! [P]

Este contenido aborda el problema de que la Tasa de Error de Palabras (WER) penaliza las diferencias de formato en las evaluaciones STT, lo que lleva a puntuaciones imprecisas. Para resolverlo, se lanzó la biblioteca de código abierto `gladia-normalization`, que normaliza las transcripciones antes del cálculo del WER, asegurando una evaluación más justa de la calidad del reconocimiento.

42
ARTICLEDEV.to AI·15/4/2026

OpenAI's Promptfoo deal puts evaluation and red-teaming at the centre of the agent stack

La adquisición de Promptfoo por OpenAI indica un cambio crucial en la evaluación de la calidad de los agentes de IA, juzgada ahora por la capacidad de probar y gobernar fallos antes del despliegue. Esto aborda riesgos operativos críticos como la inyección de prompts y el uso indebido de herramientas, asegurando la robustez de los sistemas en producción.

30
RESEARCHarXiv CS.LG·hace 17d

HealthCraft: A Reinforcement Learning Safety Environment for Emergency Medicine

El artículo presenta HealthCraft, un entorno público de aprendizaje por refuerzo para evaluar la seguridad de los modelos de lenguaje de frontera en medicina de emergencia. Se centra en la seguridad a nivel de trayectoria, el uso indebido de herramientas y la presión clínica, construido sobre un estado mundial FHIR R4 y ofreciendo 195 tareas para una evaluación exhaustiva.

29
RESEARCHarXiv CS.CL·6/4/2026

SocioEval: A Template-Based Framework for Evaluating Socioeconomic Status Bias in Foundation Models

SocioEval é um framework baseado em templates para avaliar sistematicamente o viés de status socioeconômico em modelos de fundação, incluindo LLMs, uma área pouco explorada. A pesquisa avaliou 13 LLMs e revelou variações substanciais nas taxas de viés (0,42% a 33,75%), manifestando-se de forma diferente em vários temas.

29
RESEARCHarXiv CS.AI·hace 4d

Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges

Este estudio investiga la estabilidad y la manipulabilidad de los jueces LLM en los procesos de evaluación, descubriendo que, aunque son estables en reevaluaciones neutrales, se vuelven reversibles bajo desafíos específicos post-decisión. La investigación demuestra que los juicios estables pueden ser anulados mediante interacción motivada.

28
ARTICLEDEV.to AI·hace 16d

Stop Engineering Prompts: How an Eval-First Harness Let Us Ship 25 Algorithm Versions Autonomously

Este artículo describe la creación de un sistema de evaluación de IA primero que permitió el envío autónomo de 25 versiones de algoritmos en 13 días. La metodología se centra en conjuntos de pruebas inmutables y revisiones independientes para asegurar que los cambios no causen regresiones. El autor destaca que el sistema, y no solo la ingeniería de prompts o la automatización total, fue crucial para el ritmo y la seguridad del desarrollo.

28
ARTICLEDEV.to AI·hace 5d

Calibration set size for LLM-as-judge: when 50 traces is enough and when 200 is mandatory

El tamaño del conjunto de calibración etiquetado por humanos para validar un LLM-as-judge depende del equilibrio de las etiquetas. Cincuenta rastros son suficientes para criterios binarios equilibrados, pero se requieren 200 o más para categorías raras pero costosas, como las violaciones de seguridad, ya que la varianza de kappa está dominada por los ejemplos de la clase minoritaria.

28
RESEARCHarXiv CS.CL·6/4/2026

Pragmatics Meets Culture: Culturally-adapted Artwork Description Generation and Evaluation

Este artigo apresenta a tarefa de geração de descrições de arte culturalmente adaptadas para combater o viés cultural em modelos de linguagem na geração de texto aberto. Ele propõe um framework de avaliação baseado em perguntas e respostas culturalmente fundamentadas, mostrando que um modelo de locutor pragmático melhora significativamente a compreensão do ouvinte.

28
ARTICLEDEV.to AI·10/5/2026

I open-sourced a 3-agent blind eval team. Any agent runtime can call it for pre-commitment review of its own plans.

Un flujo de trabajo de evaluación ciega de 3 agentes de código abierto, lanzado este fin de semana, permite a cualquier tiempo de ejecución de agente de IA revisar previamente sus planes. Este sistema aborda la incapacidad de los modelos para autoevaluarse de forma fiable mediante una primitiva externa y ciega.

27
RESEARCHarXiv CS.CL·16/4/2026

Bi-Predictability: A Real-Time Signal for Monitoring LLM Interaction Integrity

Este trabajo introduce la bi-predictibilidad (P) y la arquitectura Information Digital Twin (IDT) para monitorear en tiempo real la integridad de la interacción de LLMs. Esto permite asegurar la coherencia estructural continua en flujos de trabajo multi-turno, superando las limitaciones de los métodos de evaluación actuales que no detectan la degradación gradual.

27
RESEARCHarXiv CS.CL·17/4/2026

MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios

MemGround es un nuevo y riguroso benchmark para la memoria a largo plazo de los LLM, diseñado para superar las limitaciones de las evaluaciones estáticas mediante escenarios interactivos gamificados. Presenta un marco jerárquico de tres niveles para evaluar diferentes tipos de memoria y un conjunto de métricas multidimensionales para una cuantificación exhaustiva.

27