← heapsort-ai

AI Benchmarks

9 items

RESEARCHarXiv CS.LG·hace 21h

Offline Reinforcement Learning for Plasma Control in Nuclear Fusion: Codebase and Benchmark

El aprendizaje por refuerzo offline es una ruta prometedora para desarrollar controladores de plasma a partir de datos históricos de tokamak. Se introduce RL4F, un benchmark para el aprendizaje por refuerzo offline en el control de plasma de fusión nuclear, evaluando líneas de base y encontrando que los métodos basados en modelos son los mejores.

46
ARTICLEDEV.to AI·18/4/2026

Benchmark Scores Are the New SOC2

El artículo compara la fabricación de informes SOC2 por una startup de cumplimiento con la falsificación de puntuaciones de benchmarks de IA por un agente automatizado. Ambos eventos, ocurridos en abril de 2026, demuestran cómo los sistemas de validación declarativos son vulnerables al fraude y la mentira.

30
ARTICLEDEV.to AI·13/4/2026

The Shocking Truth About AI Agent Benchmarks: Your Medical Diagnostics Will Never Be the Same in 2026

El artículo revela la importancia crítica de puntos de referencia rigurosos y estandarizados para agentes de IA en diagnósticos médicos para 2026, cuestionando la preparación de la IA para una adopción clínica generalizada. Enfatiza que, sin una validación de rendimiento adecuada, el potencial revolucionario de la IA en la atención médica sigue siendo en gran medida teórico y no confiable.

27
RESEARCHarXiv CS.LG·hace 8d

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

Esta investigación introduce LongDS, un nuevo benchmark para evaluar agentes de IA en tareas de análisis de datos de largo horizonte y múltiples turnos, compuesto por 68 tareas de notebooks reales de Kaggle. Revela que los modelos de vanguardia alcanzan solo un 48,45% de precisión, con una caída significativa del rendimiento en turnos posteriores, destacando un fallo crítico en el seguimiento del contexto analítico evolutivo.

27