← heapsort-ai

Benchmarks

67 items

RESEARCHarXiv CS.CL·hace 4d

MCBench: A Multicontext Safety Assessment Benchmark for Omni Large Language Models

MCBench es un nuevo benchmark para evaluar la seguridad de los LLM Omni que procesan entradas visuales, de audio y texto, revelando desafíos significativos en la integración de modalidades para juicios de seguridad precisos. Destaca que los LLM Omni actuales carecen de un razonamiento robusto entre modalidades en entornos críticos de seguridad.

28
RESEARCHarXiv CS.CL·14/4/2026

Simulating Organized Group Behavior: New Framework, Benchmark, and Analysis

Este artículo propone un nuevo marco y benchmark para simular el comportamiento de grupos organizados, como la toma de decisiones corporativas. Formaliza la tarea de "Simulación del Comportamiento de Grupos Organizados" e introduce GROVE, un benchmark con 8.052 pares de contexto-decisión del mundo real para predecir acciones colectivas.

28
ARTICLEDEV.to AI·hace 7d

<think>The user wants me to rewrite an article about open source AI models via API. Let me analyze the requirements:

El artículo explora la accesibilidad y la rentabilidad de los modelos de IA de código abierto a través de API, detallando sus estructuras de precios y métricas de rendimiento. Su objetivo es proporcionar un análisis comparativo para ayudar a los desarrolladores a seleccionar la solución de IA más adecuada para sus necesidades.

28
RESEARCHarXiv CS.CL·4/5/2026

Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment

Esta investigación explora métodos eficientes para evaluar Grandes Modelos de Audio (LAMs) utilizando subconjuntos mínimos de datos, logrando una alta correlación con los benchmarks completos. También demuestra que los modelos de regresión entrenados en estos subconjuntos pueden predecir mejor las preferencias humanas para la satisfacción del usuario que los benchmarks completos.

28
RESEARCHarXiv CS.CL·hace 21d

CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

Este artículo introduce CHI-Bench, un nuevo benchmark para evaluar la automatización de flujos de trabajo complejos y de largo alcance en el sector de la salud por agentes de IA. Aborda las brechas existentes en los benchmarks actuales al centrarse en la densidad de políticas, la composición multi-rol y la interacción multilateral en operaciones sanitarias realistas.

28
RESEARCHarXiv CS.CL·hace 6d

Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

Una inspección sistemática de las divisiones de validación de extsf{FOLIO} y extsf{MALLS} reveló altas tasas de formalizaciones FOL incorrectas y oraciones NL ambiguas, distorsionando la evaluación de modelos de IA. Los autores desarrollaron y publicaron verdades fundamentales corregidas para estos conjuntos de datos, demostrando cómo los errores de anotación impactan la evaluación de LLMs de última generación.

28
RESEARCHarXiv CS.AI·22/4/2026

From Natural Language to Executable Narsese: A Neuro-Symbolic Benchmark and Pipeline for Reasoning with NARS

Este artículo introduce un marco neuro-simbólico para traducir problemas de razonamiento en lenguaje natural a Narsese ejecutable, utilizando lógica de primer orden. Presenta NARS-Reasoning-v0.1, un nuevo benchmark con problemas de razonamiento y sus representaciones formales y etiquetas de verdad para evaluar las capacidades de razonamiento.

27
RESEARCHarXiv CS.AI·hace 26d

Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack

Este artículo presenta BenchJack, un sistema automatizado para auditar benchmarks de agentes de IA, con el fin de identificar la "manipulación de recompensas" donde los agentes maximizan las puntuaciones sin realizar la tarea. Deriva una taxonomía de patrones de fallas y utiliza un pipeline generativo-adversarial para mejorar la robustez de los benchmarks.

27
ARTICLEDEV.to AI·hace 10d

Opus 4.8 ships Dynamic Workflows — hundreds of parallel subagents per session. Read this before you wire it into prod.

La versión Opus 4.8 de Anthropic presenta Dynamic Workflows, un nuevo modelo de programación que permite cientos de subagentes paralelos por sesión, vital para el despliegue de agentes en producción. El artículo advierte sobre la importancia de fijar las configuraciones en la versión de vista previa para evitar facturas inesperadas.

27
RESEARCHDEV.to AI·hace 15d

François Chollet 谈 AGI 未来

François Chollet discute el futuro de la AGI, prediciendo su llegada alrededor de 2030, y presenta la misión del laboratorio NDI de desarrollar un nuevo paradigma de aprendizaje automático "óptimo" basado en la síntesis de programas simbólicos. Critica las limitaciones del aprendizaje profundo y describe la estrategia de alto riesgo y alta recompensa de NDI para el avance fundamental de la IA.

27
RESEARCHDEV.to AI·hace 20d

Self-evolving retrieval lifts benchmark scores 25%

Los agentes de IA que adaptan sus configuraciones de recuperación durante la ejecución muestran un aumento del 25.7% en el rendimiento en benchmarks establecidos, refutando la suposición de que las pilas de recuperación deben ser fijas. Este nuevo paradigma permite que un módulo de "diagnóstico" impulsado por LLM reescriba su estrategia de búsqueda a medida que llegan nuevas consultas, tratando todo el pipeline de acceso a la memoria como una política mutable.

27