Benchmarks

67 items

RESEARCHarXiv CS.CL·il y a 4j

MCBench: A Multicontext Safety Assessment Benchmark for Omni Large Language Models

MCBench est un nouveau benchmark pour évaluer la sécurité des LLM Omni traitant des entrées visuelles, audio et textuelles, révélant des défis importants dans l'intégration des modalités pour des jugements de sécurité précis. Il souligne que les LLM Omni actuels manquent de raisonnement intermodal robuste dans des contextes critiques de sécurité.

multimodal AI LLMs Cross-modal reasoning Benchmarks

RESEARCHarXiv CS.CL·14/04/2026

Simulating Organized Group Behavior: New Framework, Benchmark, and Analysis

Cet article propose un nouveau cadre et un benchmark pour simuler le comportement de groupes organisés, comme la prise de décision des entreprises. Il formalise la tâche de "Simulation du Comportement de Groupe Organisé" et présente GROVE, un benchmark avec 8 052 paires contexte-décision réelles pour prédire les actions collectives.

Decision Making Organizational Behavior Benchmarks Market Prediction

RESEARCHarXiv CS.AI·14/04/2026

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

LABBench2 est présenté comme un benchmark amélioré pour évaluer les systèmes d'IA effectuant de la recherche en biologie, évoluant du LAB-Bench original. Il vise à mesurer les capacités du monde réel dans des tâches scientifiques utiles, allant au-delà des connaissances et du raisonnement de base, et comprend près de 1 900 tâches.

Scientific Discovery Language Agents Biology Research Benchmarks

RESEARCHDEV.to AI·23/04/2026

qwen3.6-27b scores 77.2% on SWE-bench. the dense model is winning against MoE.

Le modèle dense Qwen3.6-27B a surpassé le modèle MoE Qwen3.6-35B-A3B sur SWE-bench, obtenant 77.2% contre 73.4%. Cela suggère que les modèles denses pourraient s'avérer plus efficaces pour les tâches d'ingénierie logicielle réelles.

AI models Model Architecture Benchmarks MoE

ARTICLEDEV.to AI·il y a 7j

<think>The user wants me to rewrite an article about open source AI models via API. Let me analyze the requirements:

L'article explore l'accessibilité et la rentabilité des modèles d'IA open source via API, détaillant leurs structures tarifaires et leurs métriques de performance. Il vise à fournir une analyse comparative pour aider les développeurs à choisir la solution d'IA la plus adaptée à leurs besoins.

AI models open-source AI API Benchmarks

RESEARCHarXiv CS.CL·04/05/2026

Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment

Cette recherche explore des méthodes efficaces pour évaluer les grands modèles audio (LAMs) en utilisant des sous-ensembles de données minimaux, atteignant une corrélation élevée avec les benchmarks complets. Elle montre également que les modèles de régression entraînés sur ces sous-ensembles peuvent mieux prédire les préférences humaines pour la satisfaction des utilisateurs que les benchmarks complets.

Model Evaluation efficiency Benchmarks Large Audio Models

RESEARCHarXiv CS.CL·il y a 21j

CHI-Bench: Can AI Agents Automate End-to-End, Long-Horizon, Policy-Rich Healthcare Workflows?

Cet article présente CHI-Bench, un nouveau benchmark conçu pour tester la capacité des agents d'IA à automatiser des flux de travail complexes, riches en politiques et à long terme dans le domaine de la santé. Il comble des lacunes critiques des benchmarks actuels en se concentrant sur la densité des politiques, la composition multi-rôles et l'interaction multilatérale dans des opérations de santé réalistes.

Workflows Healthcare Benchmarks automation

RESEARCHarXiv CS.CL·il y a 6j

Fixing FOLIO and MALLS: Verified Annotations and an LLM-assisted Framework to Focus Human Relabeling

Une inspection systématique des divisions de validation de extsf{FOLIO} et extsf{MALLS} a révélé des taux élevés de formalisations FOL incorrectes et de phrases NL ambiguës, faussant l'évaluation des modèles d'IA. Les auteurs ont développé et publié des vérités fondamentales corrigées pour ces ensembles de données, démontrant l'impact des erreurs d'annotation sur l'évaluation des LLM de pointe.

LLMs Neurosymbolic AI natural language processing Benchmarks

RESEARCHDEV.to AI·17/04/2026

Claude Opus 4.7 Just Dropped: 87.6% SWE-bench, Breaking API Changes, and the Hidden Cost Increase

Anthropic a lancé Claude Opus 4.7, présentant des améliorations significatives des performances, notamment en codage (87,6% SWE-bench) et en vision (98,5% d'acuité visuelle). La mise à jour comprend des modifications agressives de l'API et une augmentation des coûts cachée malgré des prix prétendument inchangés.

AI model release API Benchmarks performance

ARTICLEDEV.to AI·10/04/2026

LLM API Pricing in 2026: I Put Every Major Model in One Table

O artigo analisa os preços das APIs de LLMs em 2026, revelando uma variação de até 100x entre os modelos e compilando uma tabela de referência detalhada. Ele compara custos de entrada, saída, cache e performance (SWE-bench) para modelos como DeepSeek V4, GPT-5.4, Claude, Gemini, Mistral e Groq, destacando opções econômicas e outliers.

API pricing AI models comparison Benchmarks

RESEARCHarXiv CS.AI·22/04/2026

From Natural Language to Executable Narsese: A Neuro-Symbolic Benchmark and Pipeline for Reasoning with NARS

Cet article présente un cadre neuro-symbolique pour traduire les problèmes de raisonnement en langage naturel en Narsese exécutable, en utilisant la logique du premier ordre. Il introduit NARS-Reasoning-v0.1, un nouveau benchmark proposant des problèmes de raisonnement avec leurs représentations formelles et des étiquettes de vérité pour évaluer les capacités de raisonnement.

LLMs Reasoning Benchmarks Neuro-symbolic AI

RESEARCHarXiv CS.AI·il y a 26j

Do Androids Dream of Breaking the Game? Systematically Auditing AI Agent Benchmarks with BenchJack

Cet article présente BenchJack, un système automatisé pour auditer les benchmarks d'agents IA, visant à identifier les exploits de "reward hacking" où les agents maximisent les scores sans effectuer la tâche. Il établit une taxonomie des modèles de défauts récurrents et utilise un pipeline génératif-adversaire pour améliorer la robustesse des benchmarks.

red-teaming reward hacking security Benchmarks

RESEARCHarXiv CS.CL·il y a 6j

IdiomX A Multilingual Benchmark for Idiom Understanding, Retrieval, and Interpretation

IdiomX est un benchmark multilingue à grande échelle introduit pour relever les défis des expressions idiomatiques en traitement du langage naturel. Il contient plus de 190 000 exemples contextualisés couvrant plus de 12 000 idiomes avec des représentations sémantiques alignées en anglais, arabe et français.

language models natural language processing datasets Benchmarks

ARTICLEDEV.to AI·il y a 10j

Opus 4.8 ships Dynamic Workflows — hundreds of parallel subagents per session. Read this before you wire it into prod.

La version Opus 4.8 d'Anthropic introduit les Dynamic Workflows, un nouveau modèle de programmation permettant des centaines de sous-agents parallèles par session, essentiel pour le déploiement d'agents en production. L'article met en garde les utilisateurs pour qu'ils fixent leurs configurations dans la version d'aperçu afin d'éviter des coûts inattendus.

Dynamic Workflows Anthropic Benchmarks Opus 4.8

ARTICLEDEV.to AI·26/04/2026

GPT-5.5 Just Dropped. Here's What the Benchmarks Are Hiding.

Cet article analyse le GPT-5.5 récemment lancé, le comparant aux modèles Claude sur des benchmarks spécifiques pour différents types de tâches. Il révèle que, si le GPT-5.5 excelle dans les tâches d'exécution, les modèles Claude sont préférés pour la recherche (en raison de taux d'hallucination plus faibles), le débogage et l'orchestration.

AI models AI capabilities use cases model comparison

ARTICLEDEV.to AI·il y a 23j

AI Agent Evaluation in 2026: Beyond the Benchmark Trap

Le contenu met en évidence l'écart significatif entre les scores élevés des agents d'IA sur les benchmarks et leurs faibles performances en production, soulignant que les benchmarks actuels testent des capacités étroites et ignorent des défis cruciaux du monde réel. Cette divergence est identifiée comme le défi majeur pour l'évaluation des agents d'IA en 2026.

evaluation AI deployment Benchmarks AI development

RESEARCHDEV.to AI·il y a 15j

François Chollet 谈 AGI 未来

François Chollet discute l'avenir de l'AGI, prévoyant son arrivée vers 2030, et présente la mission du laboratoire NDI de développer un nouveau paradigme d'apprentissage automatique "optimal" basé sur la synthèse de programmes symboliques. Il critique les limitations de l'apprentissage profond et décrit la stratégie à haut risque et haute récompense de NDI pour l'avancement fondamental de l'IA.

AGI deep learning Symbolic AI Benchmarks

RESEARCHDEV.to AI·il y a 23j

Glean benchmark: Off-the-shelf MCP costs 30% more tokens than indexed context

Un nouveau benchmark de Glean dans Claude Cowork indique que les serveurs MCP prêts à l'emploi échouent 2,5 fois plus souvent et consomment 30 % de jetons en plus que la couche de contexte indexée de Glean. Les utilisateurs ont également signalé avoir réduit leurs factures de jetons Claude de 30 % grâce à l'approche de Glean.

language models Claude Cowork AI Efficiency Benchmarks

RESEARCHDEV.to AI·il y a 20j

Self-evolving retrieval lifts benchmark scores 25%

Les agents d'IA qui adaptent leurs configurations de récupération en cours d'exécution obtiennent une amélioration de 25,7% des performances sur les benchmarks établis, remettant en question l'hypothèse que les piles de récupération doivent être figées. Ce nouveau paradigme permet à un module de "diagnostic" piloté par LLM de réécrire sa stratégie de recherche à mesure que de nouvelles requêtes arrivent, traitant l'ensemble du pipeline d'accès à la mémoire comme une politique mutable.

Adaptive AI Benchmarks Retrieval systems AI agents

RESEARCHDEV.to AI·05/05/2026

BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents

BrowseComp est un nouveau benchmark exigeant conçu pour évaluer les agents de navigation. Il se concentre sur des tâches complexes nécessitant une compréhension contextuelle et une interaction avec les interfaces web, offrant une nouvelle métrique pour la performance de l'IA.

evaluation research Benchmarks AI