AI evaluation

65 items

RESEARCHarXiv CS.CL·17/04/2026

Can Large Language Models Detect Methodological Flaws? Evidence from Gesture Recognition for UAV-Based Rescue Operation Based on Deep Learning

Cette recherche examine si les Grands Modèles de Langage (LLMs) peuvent identifier les défauts méthodologiques, tels que la fuite de données, dans les études d'apprentissage automatique publiées. Une étude de cas a montré que six LLMs de pointe ont constamment détecté des défauts d'évaluation dans un article de reconnaissance de gestes en raison d'un partitionnement de données non indépendant.

deep learning machine learning large language models AI evaluation

RESEARCHarXiv CS.AI·il y a 20j

Open-World Evaluations for Measuring Frontier AI Capabilities

Cet article préconise les "évaluations en monde ouvert" en complément des benchmarks traditionnels pour mesurer les capacités de l'IA de pointe. Il présente CRUX, un projet visant à mener régulièrement ces évaluations à long terme et en situation réelle, illustré par un agent IA qui a publié avec succès une application iOS.

AI capabilities CRUX project open-world evaluations frontier AI

RESEARCHarXiv CS.AI·il y a 18j

AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence

AttuneBench est un nouveau benchmark basé sur 200 conversations réelles multi-tours entre humains et modèles pour évaluer l'intelligence émotionnelle des LLM. Il mesure la capacité des modèles à inférer et répondre aux états émotionnels au cours de conversations réelles, révélant que les classements des modèles en reconnaissance émotionnelle et autres métriques sont largement indépendants.

Emotional Intelligence Benchmarks human-AI interaction AI evaluation

RESEARCHarXiv CS.CL·11/05/2026

Domain-level metacognitive monitoring in frontier LLMs: A 33-model atlas

Cette étude présente un atlas de la surveillance métacognitive au niveau du domaine chez 33 LLM de pointe, analysant 1 500 éléments MMLU dans six domaines. Elle révèle une variation significative au sein du modèle, les connaissances appliquées/professionnelles étant le domaine le plus facile et le raisonnement formel/sciences naturelles les plus difficiles à surveiller.

LLMs Metacognition cognitive AI Benchmarks

RESEARCHarXiv CS.CL·il y a 26j

Physics-R1: An Audited Olympiad Corpus and Recipe for Visual Physics Reasoning

Ce travail audite les pipelines d'évaluation de la physique multimodale, identifiant des pratiques de construction qui faussent la mesure du raisonnement vision-langage. Il aborde la contamination train-éval, la dérive de traduction et la saturation des QCM, et publie de nouveaux artefacts pour combler ces lacunes.

multimodal AI Physics reasoning Corpus development Benchmarking

RESEARCHarXiv CS.CL·il y a 21j

The Annotation Scarcity Paradox in Low-Resource NLP Evaluation: A Decade of Acceleration and Emerging Constraints

Le traitement du langage naturel (TLN) à faibles ressources a connu une croissance explosive, mais son évaluation fait face à un défi critique: la rareté de l'expertise sociolinguistique nécessaire pour évaluer les systèmes génératifs complexes. Cela crée le "Paradoxe de la Rareté de l'Annotation", où la capacité technique à développer des modèles dépasse l'infrastructure humaine requise pour une évaluation authentique.

machine learning NLP Low-resource languages AI evaluation

RESEARCHarXiv CS.CL·il y a 27j

In-Situ Behavioral Evaluation for LLM Fairness, Not Standardized-Test Scores

Cet article propose d'évaluer l'équité des LLM par le comportement conversationnel in-situ plutôt que par des tests standardisés. Il introduit le cadre MAC-Fairness pour l'analyse comportementale dans le dialogue multi-agents, révélant la non-fiabilité des approches traditionnelles.

LLM fairness Research Methods multi-agent systems AI evaluation

RESEARCHarXiv CS.CL·il y a 23j

Capability Conditioned Scaffolding for Professional Human LLM Collaboration

Cette recherche introduit l'Échafaudage Conditionné par la Capacité, un cadre qui aborde la dérive de domaine professionnel dans la collaboration humain-LLM en adaptant les interventions de l'IA en fonction des niveaux d'expertise de l'utilisateur. Une évaluation pilote a montré que cette approche améliore la collaboration fiable entre l'homme et l'IA, au-delà de la simple personnalisation stylistique.

human-AI collaboration User expertise Domain Adaptation LLM interaction

RESEARCHarXiv CS.AI·il y a 12j

BEAMS: Benchmarking and Evaluating AI for Modeling and Simulation

L'Initiative BEAMS vise à guider le développement d'outils d'IA pour la modélisation et la simulation de manière responsable et éthique, en établissant des benchmarks centrés sur l'humain. Elle utilise une infrastructure ouverte et le projet open source 'sd ai' pour évaluer collaborativement ces outils.

open-source AI modeling and simulation Benchmarking AI evaluation

RESEARCHarXiv CS.AI·il y a 12j

Review Arcade: On the Human Alignment and Gameability of LLM Reviews

Cette recherche évalue les revues générées par les LLM pour les articles scientifiques, du point de vue de l'auteur et du réviseur. Elle met en évidence un alignement limité avec les revues humaines et la manière dont les auteurs peuvent "jouer" avec les revues des LLM pour améliorer les soumissions.

scientific review human-AI interaction AI evaluation LLM

RESEARCHarXiv CS.AI·il y a 15j

Confidence Calibration in Large Language Models

Cette étude examine la calibration de la confiance des Grands Modèles de Langage (LLMs) sur diverses tâches, révélant que les LLMs actuels sont trop sûrs d'eux sur les tests difficiles et sous-confiants sur les tests faciles. Les chercheurs ont développé LifeEval, un nouveau test pour évaluer la calibration des modèles à travers différents niveaux de difficulté.

Confidence Calibration Overconfidence machine learning large language models

RESEARCHarXiv CS.AI·il y a 14j

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

OmniToM est un nouveau benchmark qui évalue la Théorie de l'Esprit chez les LLM via la modélisation explicite des structures de croyance. Il dépasse les limites des évaluations basées uniquement sur des réponses finales, permettant une analyse approfondie des représentations d'états mentaux, y compris les croyances divergentes ou erronées.

LLMs Social Reasoning Benchmarking AI evaluation

RESEARCHarXiv CS.AI·il y a 14j

JobBench: Aligning Agent Work With Human Will

JobBench est un nouveau benchmark qui évalue les agents d'IA sur des flux de travail identifiés par des experts comme hautement prioritaires pour la délégation, couvrant 130 tâches dans 35 professions. Il vise à faire passer l'effet sur le marché du travail du remplacement à l'amélioration, en construisant des agents qui font ce que les humains souhaitent réellement déléguer.

future-of-work job delegation Benchmarking AI evaluation

RESEARCHarXiv CS.AI·il y a 14j

Can LLMs Introspect? A Reality Check

Une nouvelle étude se demande si les grands modèles de langage (LLM) peuvent réellement s'introspectionner, arguant que les conclusions actuelles pourraient être prématurées. Elle suggère que le succès apparent pourrait provenir de la détection générale d'anomalies plutôt que d'une introspection authentique, s'inspirant des recherches sur la métacognition humaine.

LLMs cognitive science Metacognition Introspection

RESEARCHDEV.to AI·21/04/2026

KWBench: New Benchmark Tests LLMs' Unprompted Problem Recognition

Des chercheurs ont introduit KWBench, un benchmark de 223 tâches pour mesurer la capacité des LLM à reconnaître les problèmes fondamentaux dans des scénarios professionnels sans être guidés. Le meilleur modèle n'a réussi que 27,9% des tâches, soulignant une lacune critique entre l'exécution des tâches et la compréhension situationnelle.

LLMs Benchmarks AI evaluation

RESEARCHarXiv CS.AI·21/04/2026

Computational Hermeneutics: Evaluating generative AI as a cultural technology

Cet article propose l'herméneutique computationnelle comme nouveau cadre d'évaluation de l'IA générative, perçue comme une technologie culturelle et une "machine à contexte". Il soutient que les évaluations doivent considérer les défis interprétatifs tels que la situation, la pluralité et l'ambiguïté, en utilisant des benchmarks itératifs, incluant des personnes et mesurant le contexte culturel.

humanities AI ethics AI evaluation Generative AI

ARTICLEHugging Face Blog·29/04/2026

AI evals are becoming the new compute bottleneck

L'évaluation de l'IA est en train de devenir le nouveau goulot d'étranglement informatique, à l'instar des anciennes limitations posées par la puissance de calcul. Cela suggère que les ressources et le temps nécessaires pour évaluer les modèles d'IA deviennent une contrainte majeure au progrès.

computational resources machine learning infrastructure AI evaluation AI development

RESEARCHarXiv CS.AI·23/04/2026

ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models

ThermoQA est un nouveau benchmark à trois niveaux de 293 problèmes de thermodynamique d'ingénierie, conçu pour évaluer le raisonnement des LLM. Les LLM de pointe comme Claude Opus 4.6 et GPT-5.4 sont en tête, mais la dégradation inter-niveaux confirme que la mémorisation des propriétés n'implique pas le raisonnement thermodynamique, avec le jeu de données et le code en open-source.

Dataset Benchmarking large language models AI evaluation

RESEARCHarXiv CS.CL·il y a 29j

Magis-Bench: Evaluating LLMs on Magistrate-Level Legal Tasks

Magis-Bench est un nouveau benchmark pour évaluer les grands modèles linguistiques (LLM) sur des tâches juridiques de niveau magistrat, utilisant 74 questions issues de récents examens compétitifs judiciaires brésiliens. Il évalue 23 LLM de pointe en utilisant une méthodologie "LLM-en-tant que juge" avec un fort accord inter-juges.

LLMs Legal AI Judicial tasks Benchmarks

RESEARCHarXiv CS.CL·15/04/2026

Filtered Reasoning Score: Evaluating Reasoning Quality on a Model's Most-Confident Traces

Cette recherche présente le "Filtered Reasoning Score", une nouvelle métrique conçue pour évaluer la qualité du raisonnement dans les modèles d'IA. Elle se concentre spécifiquement sur l'évaluation du raisonnement apparent dans les traces les plus sûres ou les sorties les plus confiantes d'un modèle.

AI metrics machine learning Reasoning AI evaluation