← heapsort-ai

Benchmarks

67 items

RESEARCHDEV.to AI·07/05/2026

AI agent logs expose reproducibility gaps

Les journaux des agents IA révèlent d'importantes lacunes en matière de reproductibilité, où les agents autonomes peuvent passer du succès à l'échec de manière significative, surtout dans les tâches de navigation web. Des recherches, y compris le corpus SWE-chat, montrent que moins de la moitié du code produit par les agents est intégré dans les commits des utilisateurs, soulignant un écart critique entre les scores de référence et la fiabilité réelle.

27
RESEARCHarXiv CS.AI·27/04/2026

Math Takes Two: A test for emergent mathematical reasoning in communication

Cet article propose Math Takes Two, un nouveau benchmark pour évaluer l'émergence du raisonnement mathématique chez les modèles linguistiques par la communication. Il teste la capacité de deux agents, sans connaissances mathématiques préalables, à développer un protocole symbolique partagé pour résoudre une tâche visuelle facilitant l'extrapolation numérique.

27
RESEARCHarXiv CS.CL·16/04/2026

WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain

WorkRB est le premier benchmark open-source et communautaire pour l'IA dans le domaine du travail, répondant à la fragmentation de la recherche et à la sensibilité des données d'emploi. Il organise 13 tâches diverses de 7 groupes en tâches unifiées de recommandation et de PNL, telles que la recommandation d'emplois/compétences et l'extraction de compétences.

27
RESEARCHarXiv CS.AI·il y a 18j

AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence

AttuneBench est un nouveau benchmark basé sur 200 conversations réelles multi-tours entre humains et modèles pour évaluer l'intelligence émotionnelle des LLM. Il mesure la capacité des modèles à inférer et répondre aux états émotionnels au cours de conversations réelles, révélant que les classements des modèles en reconnaissance émotionnelle et autres métriques sont largement indépendants.

27
RESEARCHarXiv CS.CL·11/05/2026

MultiSoc-4D: A Benchmark for Diagnosing Instruction-Induced Label Collapse in Closed-Set LLM Annotation of Bengali Social Media

MultiSoc-4D est un nouveau benchmark de données de médias sociaux bengalis pour diagnostiquer le comportement des LLM dans l'annotation en ensemble fermé. La recherche révèle un phénomène de "collapse d'étiquettes induit par l'instruction", où les LLM préfèrent systématiquement les étiquettes de repli, sous-détectant les catégories minoritaires.

27
RESEARCHarXiv CS.CL·11/05/2026

Domain-level metacognitive monitoring in frontier LLMs: A 33-model atlas

Cette étude présente un atlas de la surveillance métacognitive au niveau du domaine chez 33 LLM de pointe, analysant 1 500 éléments MMLU dans six domaines. Elle révèle une variation significative au sein du modèle, les connaissances appliquées/professionnelles étant le domaine le plus facile et le raisonnement formel/sciences naturelles les plus difficiles à surveiller.

27
RESEARCHarXiv CS.AI·il y a 15j

BODHI: Precise OS Kernel Specification Inference

Cet article propose BODHI, une méthode d'invite de connaissance de domaine pour l'inférence de spécifications de noyau de système d'exploitation, visant à surmonter les limitations actuelles des LLM. Elle augmente l'invite standard en quelques coups avec un guide de traduction structuré C vers Python, améliorant l'automatisation et la précision des spécifications.

27
RESEARCHarXiv CS.CL·il y a 9j

CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law

Cette recherche introduit CanLegalRAGBench, un nouveau benchmark canadien pour l'évaluation des systèmes de Génération Augmentée par Récupération (RAG) sur des questions juridiques, avec des requêtes réalistes et des réponses annotées par des experts. L'étude révèle la sensibilité de la performance de récupération, la compétitivité des modèles d'embedding open-source et les limites des évaluations automatiques et des hallucinations des LLM.

27
RESEARCHarXiv CS.AI·il y a 14j

Constraint acquisition needs better benchmarks

Les benchmarks actuels pour l'Acquisition de Contraintes (CA) et les modèles de Programmation Mathématique (MP) sont inadéquats, entravant la reproductibilité et la comparabilité de la recherche. Ce travail introduit MPMMine, une nouvelle suite de benchmarks conçue pour valider et améliorer les modèles MP en utilisant divers artefacts de connaissance du domaine, favorisant la cohérence et l'ouverture.

27
RESEARCHDEV.to AI·21/04/2026

KWBench: New Benchmark Tests LLMs' Unprompted Problem Recognition

Des chercheurs ont introduit KWBench, un benchmark de 223 tâches pour mesurer la capacité des LLM à reconnaître les problèmes fondamentaux dans des scénarios professionnels sans être guidés. Le meilleur modèle n'a réussi que 27,9% des tâches, soulignant une lacune critique entre l'exécution des tâches et la compréhension situationnelle.

27