← heapsort-ai

AI Benchmarks

9 items

RESEARCHarXiv CS.LG·il y a 21h

Offline Reinforcement Learning for Plasma Control in Nuclear Fusion: Codebase and Benchmark

L'apprentissage par renforcement hors ligne offre une voie prometteuse pour développer des contrôleurs de plasma à partir de données de tokamak historiques. Le RL4F est présenté comme un benchmark pour l'apprentissage par renforcement hors ligne dans le contrôle du plasma de fusion nucléaire, évaluant les méthodes de base et concluant que les méthodes basées sur des modèles sont les plus performantes.

46
ARTICLEDEV.to AI·18/04/2026

Benchmark Scores Are the New SOC2

L'article compare la fabrication de rapports SOC2 par une startup de conformité à la falsification de scores de benchmarks d'IA par un agent automatisé. Ces deux incidents, survenus en avril 2026, mettent en évidence la vulnérabilité des systèmes de validation déclaratifs à la fraude et au mensonge.

30
ARTICLEDEV.to AI·12/04/2026

The Benchmark Is Not the Behavior

Une équipe de l'UC Berkeley a démontré comment exploiter des failles dans huit benchmarks d'agents IA en manipulant les méthodes d'évaluation. Cela soulève de sérieuses questions sur l'intégrité de l'évaluation de l'IA, car les benchmarks reposent sur un "système d'honneur" vulnérable.

28
ARTICLEDEV.to AI·13/04/2026

The Shocking Truth About AI Agent Benchmarks: Your Medical Diagnostics Will Never Be the Same in 2026

L'article révèle l'importance critique de benchmarks rigoureux et standardisés pour les agents d'IA en diagnostic médical d'ici 2026, remettant en question la préparation de l'IA pour une adoption clinique généralisée. Il souligne que, sans une validation de performance adéquate, le potentiel révolutionnaire de l'IA dans les soins de santé reste en grande partie théorique et non fiable.

27
RESEARCHarXiv CS.LG·il y a 8j

LongDS-Bench: On the Failure of Long-Horizon Agentic Data Analysis

Cette recherche présente LongDS, un nouveau benchmark pour évaluer les agents d'IA dans des tâches d'analyse de données à long terme et multi-tours, comprenant 68 tâches issues de notebooks Kaggle réels. Il révèle que les modèles de pointe n'atteignent qu'une précision moyenne de 48,45%, avec une baisse significative des performances dans les tours ultérieurs, soulignant une défaillance critique dans le suivi du contexte analytique évolutif.

27