← heapsort-ai

AI evaluation

65 items

RESEARCHarXiv CS.CL·17/04/2026

Can Large Language Models Detect Methodological Flaws? Evidence from Gesture Recognition for UAV-Based Rescue Operation Based on Deep Learning

Cette recherche examine si les Grands Modèles de Langage (LLMs) peuvent identifier les défauts méthodologiques, tels que la fuite de données, dans les études d'apprentissage automatique publiées. Une étude de cas a montré que six LLMs de pointe ont constamment détecté des défauts d'évaluation dans un article de reconnaissance de gestes en raison d'un partitionnement de données non indépendant.

27
RESEARCHarXiv CS.AI·il y a 18j

AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence

AttuneBench est un nouveau benchmark basé sur 200 conversations réelles multi-tours entre humains et modèles pour évaluer l'intelligence émotionnelle des LLM. Il mesure la capacité des modèles à inférer et répondre aux états émotionnels au cours de conversations réelles, révélant que les classements des modèles en reconnaissance émotionnelle et autres métriques sont largement indépendants.

27
RESEARCHarXiv CS.CL·11/05/2026

Domain-level metacognitive monitoring in frontier LLMs: A 33-model atlas

Cette étude présente un atlas de la surveillance métacognitive au niveau du domaine chez 33 LLM de pointe, analysant 1 500 éléments MMLU dans six domaines. Elle révèle une variation significative au sein du modèle, les connaissances appliquées/professionnelles étant le domaine le plus facile et le raisonnement formel/sciences naturelles les plus difficiles à surveiller.

27
RESEARCHarXiv CS.CL·il y a 21j

The Annotation Scarcity Paradox in Low-Resource NLP Evaluation: A Decade of Acceleration and Emerging Constraints

Le traitement du langage naturel (TLN) à faibles ressources a connu une croissance explosive, mais son évaluation fait face à un défi critique: la rareté de l'expertise sociolinguistique nécessaire pour évaluer les systèmes génératifs complexes. Cela crée le "Paradoxe de la Rareté de l'Annotation", où la capacité technique à développer des modèles dépasse l'infrastructure humaine requise pour une évaluation authentique.

27
RESEARCHarXiv CS.CL·il y a 23j

Capability Conditioned Scaffolding for Professional Human LLM Collaboration

Cette recherche introduit l'Échafaudage Conditionné par la Capacité, un cadre qui aborde la dérive de domaine professionnel dans la collaboration humain-LLM en adaptant les interventions de l'IA en fonction des niveaux d'expertise de l'utilisateur. Une évaluation pilote a montré que cette approche améliore la collaboration fiable entre l'homme et l'IA, au-delà de la simple personnalisation stylistique.

27
RESEARCHarXiv CS.AI·il y a 15j

Confidence Calibration in Large Language Models

Cette étude examine la calibration de la confiance des Grands Modèles de Langage (LLMs) sur diverses tâches, révélant que les LLMs actuels sont trop sûrs d'eux sur les tests difficiles et sous-confiants sur les tests faciles. Les chercheurs ont développé LifeEval, un nouveau test pour évaluer la calibration des modèles à travers différents niveaux de difficulté.

27
RESEARCHarXiv CS.AI·il y a 14j

OmniToM: Benchmarking Theory of Mind in LLMs via Explicit Belief Modeling

OmniToM est un nouveau benchmark qui évalue la Théorie de l'Esprit chez les LLM via la modélisation explicite des structures de croyance. Il dépasse les limites des évaluations basées uniquement sur des réponses finales, permettant une analyse approfondie des représentations d'états mentaux, y compris les croyances divergentes ou erronées.

27
RESEARCHarXiv CS.AI·il y a 14j

JobBench: Aligning Agent Work With Human Will

JobBench est un nouveau benchmark qui évalue les agents d'IA sur des flux de travail identifiés par des experts comme hautement prioritaires pour la délégation, couvrant 130 tâches dans 35 professions. Il vise à faire passer l'effet sur le marché du travail du remplacement à l'amélioration, en construisant des agents qui font ce que les humains souhaitent réellement déléguer.

27
RESEARCHarXiv CS.AI·il y a 14j

Can LLMs Introspect? A Reality Check

Une nouvelle étude se demande si les grands modèles de langage (LLM) peuvent réellement s'introspectionner, arguant que les conclusions actuelles pourraient être prématurées. Elle suggère que le succès apparent pourrait provenir de la détection générale d'anomalies plutôt que d'une introspection authentique, s'inspirant des recherches sur la métacognition humaine.

27
RESEARCHDEV.to AI·21/04/2026

KWBench: New Benchmark Tests LLMs' Unprompted Problem Recognition

Des chercheurs ont introduit KWBench, un benchmark de 223 tâches pour mesurer la capacité des LLM à reconnaître les problèmes fondamentaux dans des scénarios professionnels sans être guidés. Le meilleur modèle n'a réussi que 27,9% des tâches, soulignant une lacune critique entre l'exécution des tâches et la compréhension situationnelle.

27
RESEARCHarXiv CS.AI·21/04/2026

Computational Hermeneutics: Evaluating generative AI as a cultural technology

Cet article propose l'herméneutique computationnelle comme nouveau cadre d'évaluation de l'IA générative, perçue comme une technologie culturelle et une "machine à contexte". Il soutient que les évaluations doivent considérer les défis interprétatifs tels que la situation, la pluralité et l'ambiguïté, en utilisant des benchmarks itératifs, incluant des personnes et mesurant le contexte culturel.

27
RESEARCHarXiv CS.AI·23/04/2026

ThermoQA: A Three-Tier Benchmark for Evaluating Thermodynamic Reasoning in Large Language Models

ThermoQA est un nouveau benchmark à trois niveaux de 293 problèmes de thermodynamique d'ingénierie, conçu pour évaluer le raisonnement des LLM. Les LLM de pointe comme Claude Opus 4.6 et GPT-5.4 sont en tête, mais la dégradation inter-niveaux confirme que la mémorisation des propriétés n'implique pas le raisonnement thermodynamique, avec le jeu de données et le code en open-source.

27