← heapsort-ai

Benchmarks

67 items

RESEARCHarXiv CS.CL·il y a 4j

MCBench: A Multicontext Safety Assessment Benchmark for Omni Large Language Models

MCBench est un nouveau benchmark pour évaluer la sécurité des LLM Omni traitant des entrées visuelles, audio et textuelles, révélant des défis importants dans l'intégration des modalités pour des jugements de sécurité précis. Il souligne que les LLM Omni actuels manquent de raisonnement intermodal robuste dans des contextes critiques de sécurité.

28
RESEARCHarXiv CS.CL·14/04/2026

Simulating Organized Group Behavior: New Framework, Benchmark, and Analysis

Cet article propose un nouveau cadre et un benchmark pour simuler le comportement de groupes organisés, comme la prise de décision des entreprises. Il formalise la tâche de "Simulation du Comportement de Groupe Organisé" et présente GROVE, un benchmark avec 8 052 paires contexte-décision réelles pour prédire les actions collectives.

28
RESEARCHarXiv CS.AI·14/04/2026

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

LABBench2 est présenté comme un benchmark amélioré pour évaluer les systèmes d'IA effectuant de la recherche en biologie, évoluant du LAB-Bench original. Il vise à mesurer les capacités du monde réel dans des tâches scientifiques utiles, allant au-delà des connaissances et du raisonnement de base, et comprend près de 1 900 tâches.

28
RESEARCHarXiv CS.CL·04/05/2026

Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment

Cette recherche explore des méthodes efficaces pour évaluer les grands modèles audio (LAMs) en utilisant des sous-ensembles de données minimaux, atteignant une corrélation élevée avec les benchmarks complets. Elle montre également que les modèles de régression entraînés sur ces sous-ensembles peuvent mieux prédire les préférences humaines pour la satisfaction des utilisateurs que les benchmarks complets.

28
RESEARCHarXiv CS.CL·il y a 21j

CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

Cet article présente CHI-Bench, un nouveau benchmark conçu pour tester la capacité des agents d'IA à automatiser des flux de travail complexes, riches en politiques et à long terme dans le domaine de la santé. Il comble des lacunes critiques des benchmarks actuels en se concentrant sur la densité des politiques, la composition multi-rôles et l'interaction multilatérale dans des opérations de santé réalistes.

28
RESEARCHarXiv CS.CL·il y a 6j

Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

Une inspection systématique des divisions de validation de extsf{FOLIO} et extsf{MALLS} a révélé des taux élevés de formalisations FOL incorrectes et de phrases NL ambiguës, faussant l'évaluation des modèles d'IA. Les auteurs ont développé et publié des vérités fondamentales corrigées pour ces ensembles de données, démontrant l'impact des erreurs d'annotation sur l'évaluation des LLM de pointe.

28
RESEARCHarXiv CS.AI·22/04/2026

From Natural Language to Executable Narsese: A Neuro-Symbolic Benchmark and Pipeline for Reasoning with NARS

Cet article présente un cadre neuro-symbolique pour traduire les problèmes de raisonnement en langage naturel en Narsese exécutable, en utilisant la logique du premier ordre. Il introduit NARS-Reasoning-v0.1, un nouveau benchmark proposant des problèmes de raisonnement avec leurs représentations formelles et des étiquettes de vérité pour évaluer les capacités de raisonnement.

27
RESEARCHarXiv CS.AI·il y a 26j

Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack

Cet article présente BenchJack, un système automatisé pour auditer les benchmarks d'agents IA, visant à identifier les exploits de "reward hacking" où les agents maximisent les scores sans effectuer la tâche. Il établit une taxonomie des modèles de défauts récurrents et utilise un pipeline génératif-adversaire pour améliorer la robustesse des benchmarks.

27
ARTICLEDEV.to AI·il y a 10j

Opus 4.8 ships Dynamic Workflows — hundreds of parallel subagents per session. Read this before you wire it into prod.

La version Opus 4.8 d'Anthropic introduit les Dynamic Workflows, un nouveau modèle de programmation permettant des centaines de sous-agents parallèles par session, essentiel pour le déploiement d'agents en production. L'article met en garde les utilisateurs pour qu'ils fixent leurs configurations dans la version d'aperçu afin d'éviter des coûts inattendus.

27
ARTICLEDEV.to AI·il y a 23j

AI Agent Evaluation in 2026: Beyond the Benchmark Trap

Le contenu met en évidence l'écart significatif entre les scores élevés des agents d'IA sur les benchmarks et leurs faibles performances en production, soulignant que les benchmarks actuels testent des capacités étroites et ignorent des défis cruciaux du monde réel. Cette divergence est identifiée comme le défi majeur pour l'évaluation des agents d'IA en 2026.

27
RESEARCHDEV.to AI·il y a 15j

François Chollet 谈 AGI 未来

François Chollet discute l'avenir de l'AGI, prévoyant son arrivée vers 2030, et présente la mission du laboratoire NDI de développer un nouveau paradigme d'apprentissage automatique "optimal" basé sur la synthèse de programmes symboliques. Il critique les limitations de l'apprentissage profond et décrit la stratégie à haut risque et haute récompense de NDI pour l'avancement fondamental de l'IA.

27
RESEARCHDEV.to AI·il y a 20j

Self-evolving retrieval lifts benchmark scores 25%

Les agents d'IA qui adaptent leurs configurations de récupération en cours d'exécution obtiennent une amélioration de 25,7% des performances sur les benchmarks établis, remettant en question l'hypothèse que les piles de récupération doivent être figées. Ce nouveau paradigme permet à un module de "diagnostic" piloté par LLM de réécrire sa stratégie de recherche à mesure que de nouvelles requêtes arrivent, traitant l'ensemble du pipeline d'accès à la mémoire comme une politique mutable.

27