Benchmarks

67 items

NEWSDEV.to AI·il y a 7j

Claude Opus 4.8: Dynamic Workflows and Parallel Subagents

Anthropic a lancé Claude Opus 4.8, introduisant des flux de travail dynamiques permettant des centaines de sous-agents parallèles pour des tâches complexes. Cette version présente des améliorations significatives dans les benchmarks comme SWE-bench Verified et USAMO, avec des prix standard inchangés et un nouveau mode rapide plus abordable.

AI models Anthropic Benchmarks large language models

RESEARCHDEV.to AI·07/05/2026

AI agent logs expose reproducibility gaps

Les journaux des agents IA révèlent d'importantes lacunes en matière de reproductibilité, où les agents autonomes peuvent passer du succès à l'échec de manière significative, surtout dans les tâches de navigation web. Des recherches, y compris le corpus SWE-chat, montrent que moins de la moitié du code produit par les agents est intégré dans les commits des utilisateurs, soulignant un écart critique entre les scores de référence et la fiabilité réelle.

software development Reliability Reproducibility Benchmarks

RESEARCHarXiv CS.CL·01/05/2026

CL-bench Life: Can Language Models Learn from Real-Life Context?

CL-bench Life est un nouveau benchmark humain conçu pour évaluer si les modèles de langage de pointe peuvent apprendre efficacement des contextes complexes et désordonnés de la vie réelle. Il comprend 405 paires contexte-tâche pour tester la capacité des modèles à raisonner sur des expériences personnelles et sociales.

context-learning language models Benchmarks

RESEARCHarXiv CS.AI·27/04/2026

Math Takes Two: A test for emergent mathematical reasoning in communication

Cet article propose Math Takes Two, un nouveau benchmark pour évaluer l'émergence du raisonnement mathématique chez les modèles linguistiques par la communication. Il teste la capacité de deux agents, sans connaissances mathématiques préalables, à développer un protocole symbolique partagé pour résoudre une tâche visuelle facilitant l'extrapolation numérique.

language models mathematical reasoning AI communication Benchmarks

RESEARCHarXiv CS.CL·16/04/2026

WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain

WorkRB est le premier benchmark open-source et communautaire pour l'IA dans le domaine du travail, répondant à la fragmentation de la recherche et à la sensibilité des données d'emploi. Il organise 13 tâches diverses de 7 groupes en tâches unifiées de recommandation et de PNL, telles que la recommandation d'emplois/compétences et l'extraction de compétences.

hiring future-of-work recommender systems NLP

RESEARCHarXiv CS.AI·04/05/2026

ARMOR 2025: A Military-Aligned Benchmark for Evaluating Large Language Model Safety Beyond Civilian Contexts

ARMOR 2025 est un nouveau benchmark aligné sur l'armée pour évaluer la sécurité des grands modèles de langage (LLMs) dans les contextes de défense. Il comble une lacune en se basant sur les doctrines militaires telles que le Droit de la Guerre et les Règles d'Engagement.

ethics military AI Benchmarks AI safety

RESEARCHarXiv CS.AI·il y a 18j

AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence

AttuneBench est un nouveau benchmark basé sur 200 conversations réelles multi-tours entre humains et modèles pour évaluer l'intelligence émotionnelle des LLM. Il mesure la capacité des modèles à inférer et répondre aux états émotionnels au cours de conversations réelles, révélant que les classements des modèles en reconnaissance émotionnelle et autres métriques sont largement indépendants.

Emotional Intelligence Benchmarks human-AI interaction AI evaluation

RESEARCHarXiv CS.CL·11/05/2026

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

MultiSoc-4D est un nouveau benchmark de données de médias sociaux bengalis pour diagnostiquer le comportement des LLM dans l'annotation en ensemble fermé. La recherche révèle un phénomène de "collapse d'étiquettes induit par l'instruction", où les LLM préfèrent systématiquement les étiquettes de repli, sous-détectant les catégories minoritaires.

LLMs Natural Language Processing Data Annotation Benchmarks

RESEARCHarXiv CS.AI·il y a 18j

SMDD-Bench: Can LLMs Solve Real-World Small Molecule Drug Design Tasks?

L'article présente SMDD-Bench, un nouveau benchmark multi-tours avec 502 tâches résolvables pour évaluer la performance des agents LLM dans la conception de médicaments à petites molécules. Il vise à standardiser l'évaluation à travers diverses chimies et cibles, nécessitant une forte intuition chimique, biologique et 3D.

LLMs Scientific Discovery Benchmarks drug design

RESEARCHarXiv CS.CL·11/05/2026

Domain-level metacognitive monitoring in frontier LLMs: A 33-model atlas

Cette étude présente un atlas de la surveillance métacognitive au niveau du domaine chez 33 LLM de pointe, analysant 1 500 éléments MMLU dans six domaines. Elle révèle une variation significative au sein du modèle, les connaissances appliquées/professionnelles étant le domaine le plus facile et le raisonnement formel/sciences naturelles les plus difficiles à surveiller.

LLMs Metacognition cognitive AI Benchmarks

RESEARCHarXiv CS.CL·il y a 7j

IdiomX A Multilingual Benchmark for Idiom Understanding, Retrieval, and Interpretation

IdiomX est un benchmark multilingue à grande échelle introduit pour relever les défis des expressions idiomatiques en traitement du langage naturel. Il contient plus de 190 000 exemples contextualisés couvrant plus de 12 000 idiomes avec des représentations sémantiques alignées en anglais, arabe et français.

language models Natural Language Processing datasets Benchmarks

RESEARCHarXiv CS.AI·il y a 15j

BODHI: Precise OS Kernel Specification Inference

Cet article propose BODHI, une méthode d'invite de connaissance de domaine pour l'inférence de spécifications de noyau de système d'exploitation, visant à surmonter les limitations actuelles des LLM. Elle augmente l'invite standard en quelques coups avec un guide de traduction structuré C vers Python, améliorant l'automatisation et la précision des spécifications.

AI models LLMs operating systems Formal verification

RESEARCHarXiv CS.CL·il y a 9j

CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law

Cette recherche introduit CanLegalRAGBench, un nouveau benchmark canadien pour l'évaluation des systèmes de Génération Augmentée par Récupération (RAG) sur des questions juridiques, avec des requêtes réalistes et des réponses annotées par des experts. L'étude révèle la sensibilité de la performance de récupération, la compétitivité des modèles d'embedding open-source et les limites des évaluations automatiques et des hallucinations des LLM.

Retrieval Augmented Generation LLMs evaluation Legal AI

RESEARCHarXiv CS.AI·il y a 14j

Constraint acquisition needs better benchmarks

Les benchmarks actuels pour l'Acquisition de Contraintes (CA) et les modèles de Programmation Mathématique (MP) sont inadéquats, entravant la reproductibilité et la comparabilité de la recherche. Ce travail introduit MPMMine, une nouvelle suite de benchmarks conçue pour valider et améliorer les modèles MP en utilisant divers artefacts de connaissance du domaine, favorisant la cohérence et l'ouverture.

Model Validation Constraint Acquisition Mathematical Programming Benchmarks

ARTICLEDEV.to AI·il y a 22j

GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, and Benchmarks

Ce contenu compare GPT-5.5 et Claude Opus 4.7, deux modèles d'IA leaders, en discutant de leurs avancées et de leurs spécificités. Il vise à guider le choix pour les projets d'IA en détaillant leurs différences de prix, de vitesse et de performances.

AI models GPT Claude Benchmarks

RESEARCHDEV.to AI·il y a 13j

SpatialBench: New Benchmark Tests Foundation Models on 3D Tasks

SpatialBench est un nouveau benchmark de ropedia_ai qui évalue les modèles de fondation spatiaux sur 7 tâches et 5 ensembles de données. Il teste la véritable compréhension spatiale 3D dans l'estimation de profondeur, la prédiction normale de surface et la détection d'objets 3D.

spatial computing 3D Foundation Models Benchmarks

RESEARCHDEV.to AI·il y a 13j

NVIDIA Vera CPU Benchmarks: 1.55x Faster Than Intel Xeon in Phoronix Tests

Les benchmarks du CPU NVIDIA Vera par Phoronix révèlent une performance 1,55 fois plus rapide que l'Intel Xeon 6980P et 10% supérieure à l'AMD EPYC 9575F. Ce processeur ARM de 88 cœurs, doté d'une bande passante mémoire de 1,2 To/s, est optimisé pour les charges de travail d'IA agentiques.

CPU AI hardware Benchmarks NVIDIA

RESEARCHDEV.to AI·21/04/2026

KWBench: New Benchmark Tests LLMs' Unprompted Problem Recognition

Des chercheurs ont introduit KWBench, un benchmark de 223 tâches pour mesurer la capacité des LLM à reconnaître les problèmes fondamentaux dans des scénarios professionnels sans être guidés. Le meilleur modèle n'a réussi que 27,9% des tâches, soulignant une lacune critique entre l'exécution des tâches et la compréhension situationnelle.

LLMs Benchmarks AI evaluation

RESEARCHarXiv CS.CL·07/04/2026

CresOWLve: Benchmarking Creative Problem-Solving Over Real-World Knowledge

CresOWLve é um novo benchmark para avaliar a resolução criativa de problemas em LLMs, superando as limitações dos benchmarks existentes. Ele utiliza quebra-cabeças baseados em conhecimento do mundo real, exigindo diversas estratégias de pensamento criativo e combinação de fatos para encontrar soluções.

LLMs Creative Problem Solving Benchmarks Cognitive Abilities

RESEARCHarXiv CS.CL·il y a 29j

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

Magis-Bench est un nouveau benchmark pour évaluer les grands modèles linguistiques (LLM) sur des tâches juridiques de niveau magistrat, utilisant 74 questions issues de récents examens compétitifs judiciaires brésiliens. Il évalue 23 LLM de pointe en utilisant une méthodologie "LLM-en-tant que juge" avec un fort accord inter-juges.

LLMs Legal AI Judicial tasks Benchmarks