← heapsort-ai

evaluation

53 items

RESEARCHarXiv CS.AI·il y a 13j

Anchor: Mitigating Artifact Drift in Agent Benchmark Generation

Anchor est un pipeline de génération de tâches qui vise à atténuer le "drift d'artefact" dans la création de benchmarks pour agents IA. Il formalise les spécifications d'experts en programmes d'optimisation, produisant conjointement des instructions, des environnements, des solutions et des vérificateurs cohérents pour les opérations commerciales.

27
ARTICLEDEV.to AI·il y a 23j

AI Agent Evaluation in 2026: Beyond the Benchmark Trap

Le contenu met en évidence l'écart significatif entre les scores élevés des agents d'IA sur les benchmarks et leurs faibles performances en production, soulignant que les benchmarks actuels testent des capacités étroites et ignorent des défis cruciaux du monde réel. Cette divergence est identifiée comme le défi majeur pour l'évaluation des agents d'IA en 2026.

27
ARTICLEDEV.to AI·14/04/2026

The 5 Levels of RAG Maturity: How to Know When Your RAG Is Actually Production-Ready

Cet article traite du défi courant d'évaluation des systèmes RAG (Retrieval-Augmented Generation), soulignant que de nombreux projets ne dépassent pas les démos initiales par manque d'évaluation appropriée. Il introduit un modèle de maturité de 0 à 5, conçu pour aider les organisations à évaluer leurs systèmes RAG et déterminer quand ils sont réellement prêts pour la production.

27
RESEARCHarXiv CS.CL·05/05/2026

CLEAR: Revealing How Noise and Ambiguity Degrade Reliability in LLMs for Medicine

Le framework CLEAR est introduit pour évaluer comment l'ambiguïté et l'incertitude affectent la fiabilité des grands modèles linguistiques (LLM) médicaux, au-delà des benchmarks simplifiés. Il perturbe systématiquement les options de réponse et leur cadrage sémantique, révélant qu'un nombre accru de réponses plausibles dégrade les performances des LLM et que la prudence diminue avec un libellé d'abstention incertain.

27
RESEARCHarXiv CS.CL·01/05/2026

BatteryPass-12K: The First Dataset for the Novel Digital Battery Passport Conformance Task

Cet article présente BatteryPass-12K, le premier ensemble de données public pour la nouvelle tâche de classification de conformité des passeports numériques de batteries (DBP), répondant à un besoin crucial avant la réglementation de l'UE. Il évalue 22 modèles de langage, montrant que les modèles "pensants" comme GPT-5.4 obtiennent les meilleures performances, et que les exemples few-shot améliorent significativement les résultats.

27
RESEARCHarXiv CS.CL·16/04/2026

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

KMMMU est un nouveau benchmark coréen natif pour évaluer la compréhension multimodale dans des contextes culturels et institutionnels coréens, comprenant 3 466 questions d'examens natifs. L'étude montre que les modèles d'IA actuels n'atteignent que 42,05 % de précision sur l'ensemble complet, avec des échecs importants sur des problèmes culturels et disciplinaires spécifiques.

27
RESEARCHarXiv CS.AI·il y a 22j

Does Theory of Mind Improvement Really Benefit Human-AI Interactions? Empirical Findings from Interactive Evaluations

Cet article propose un nouveau paradigme pour l'évaluation interactive des améliorations de la Théorie de l'Esprit (ToM) chez les grands modèles linguistiques (LLM) pour les interactions homme-IA. Des résultats empiriques, issus de jeux de données réels et d'une étude utilisateur, révèlent que les améliorations sur des benchmarks statiques ne se traduisent pas toujours par des bénéfices dans les interactions dynamiques homme-IA.

27
RESEARCHarXiv CS.CL·il y a 25j

When Evidence Conflicts: Uncertainty and Order Effects in Retrieval-Augmented Biomedical Question Answering

Cette recherche évalue les grands modèles de langage (LLMs) dans la réponse aux questions biomédicales, en abordant leur fiabilité face à des preuves conflictuelles ou incomplètes. Elle révèle que la précision des LLMs diminue significativement et que les prédictions s'inversent lorsque l'ordre des documents corrects et contradictoires est inversé, soulignant les problèmes d'effets d'ordre et la nécessité d'une abstention consciente des conflits.

27
RESEARCHarXiv CS.CL·il y a 14j

Faithful or Fabricated? A Causal Framework for Rationalization Bias in LLM Judges

Cet article introduit un cadre causal pour étudier le biais de rationalisation chez les LLM utilisés comme juges automatiques pour l'évaluation de résumés et de dialogues. Il examine si les classements et les explications des LLM restent stables lorsque des indices non probants sont perturbés, en proposant des interventions d'indices et des métriques d'ancrage.

27
RESEARCHarXiv CS.CL·il y a 8j

Protocol for evaluating ChatGPT in biomedical association generation and verification using a RAG-enabled, cross-model majority voting workflow

Ce protocole évalue la capacité de ChatGPT à générer et vérifier des associations biomédicales centrées sur les maladies, en utilisant des ontologies biomédicales et la littérature. Il intègre une stratégie d'auto-cohérence et un flux de travail activé par RAG, alimenté par des LLM open source, pour résoudre les limitations de correspondance exacte et détecter les hallucinations.

27
RESEARCHarXiv CS.CL·il y a 8j

CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law

Cette recherche introduit CanLegalRAGBench, un nouveau benchmark canadien pour l'évaluation des systèmes de Génération Augmentée par Récupération (RAG) sur des questions juridiques, avec des requêtes réalistes et des réponses annotées par des experts. L'étude révèle la sensibilité de la performance de récupération, la compétitivité des modèles d'embedding open-source et les limites des évaluations automatiques et des hallucinations des LLM.

27