evaluation

53 items

RESEARCHarXiv CS.CL·il y a 20j

Time to REFLECT: Can We Trust LLM Judges for Evidence-based Research Agents?

Les agents de recherche approfondie automatisent des tâches complexes de recherche d'informations, nécessitant une évaluation évolutive et fiable. L'utilisation de LLM en tant que juges pour la supervision soulève des questions sur leur fiabilité, soulignant le besoin critique d'une méta-évaluation spécifique pour ces juges.

REFLECT meta-evaluation evaluation research agents

RESEARCHarXiv CS.AI·il y a 13j

Anchor: Mitigating Artifact Drift in Agent Benchmark Generation

Anchor est un pipeline de génération de tâches qui vise à atténuer le "drift d'artefact" dans la création de benchmarks pour agents IA. Il formalise les spécifications d'experts en programmes d'optimisation, produisant conjointement des instructions, des environnements, des solutions et des vérificateurs cohérents pour les opérations commerciales.

evaluation task generation Benchmarking business workflows

ARTICLEDEV.to AI·il y a 23j

AI Agent Evaluation in 2026: Beyond the Benchmark Trap

Le contenu met en évidence l'écart significatif entre les scores élevés des agents d'IA sur les benchmarks et leurs faibles performances en production, soulignant que les benchmarks actuels testent des capacités étroites et ignorent des défis cruciaux du monde réel. Cette divergence est identifiée comme le défi majeur pour l'évaluation des agents d'IA en 2026.

evaluation AI deployment Benchmarks AI development

ARTICLEDEV.to AI·il y a 29j

Best AI Answering Service for Contractors: An Operator's Evaluation Framework

Le fondateur d'un service de réponse IA pour les entrepreneurs présente un cadre d'évaluation de ces services, en reconnaissant son biais. L'article offre un guide opérationnel approfondi sur les tests, l'instrumentation, la négociation et les problèmes de production courants, spécifiquement pour les constructeurs et les opérateurs.

framework evaluation contractors answering service

RESEARCHDEV.to AI·05/05/2026

BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents

BrowseComp est un nouveau benchmark exigeant conçu pour évaluer les agents de navigation. Il se concentre sur des tâches complexes nécessitant une compréhension contextuelle et une interaction avec les interfaces web, offrant une nouvelle métrique pour la performance de l'IA.

evaluation research Benchmarks AI

ARTICLEDEV.to AI·14/04/2026

The 5 Levels of RAG Maturity: How to Know When Your RAG Is Actually Production-Ready

Cet article traite du défi courant d'évaluation des systèmes RAG (Retrieval-Augmented Generation), soulignant que de nombreux projets ne dépassent pas les démos initiales par manque d'évaluation appropriée. Il introduit un modèle de maturité de 0 à 5, conçu pour aider les organisations à évaluer leurs systèmes RAG et déterminer quand ils sont réellement prêts pour la production.

Production-Ready AI LLMs evaluation RAG

RESEARCHDEV.to AI·19/04/2026

Evaluation of Retrieval-Augmented Generation: A Survey

Cette étude évalue la Génération Augmentée par Récupération (RAG), analysant son état actuel, ses architectures et ses métriques de performance. Elle offre un aperçu complet des techniques RAG existantes et de leurs applications.

Survey evaluation RAG NLP

RESEARCHDEV.to AI·14/04/2026

Don't forget, there is more than forgetting: new metrics for Continual Learning

Ce contenu présente de nouvelles métriques pour l'Apprentissage Continu, élargissant l'évaluation au-delà de la simple prévention de l'oubli catastrophique. Il propose une vision plus complète pour mesurer les performances des modèles d'IA dans les scénarios d'apprentissage séquentiel.

AI metrics evaluation machine learning Catastrophic Forgetting

ARTICLEDEV.to AI·il y a 18j

Intercom: Outlines Key Factors Beyond Performance for Evaluating AI Customer Service Agents

Intercom a publié un article décrivant des facteurs cruciaux, au-delà des performances brutes, pour évaluer les agents de service client IA. L'article met l'accent sur l'intégration, la personnalisation et la valeur à long terme comme métriques essentielles pour la sélection de solutions d'IA.

evaluation customer service business strategy AI

RESEARCHarXiv CS.CL·05/05/2026

CLEAR: Revealing How Noise and Ambiguity Degrade Reliability in LLMs for Medicine

Le framework CLEAR est introduit pour évaluer comment l'ambiguïté et l'incertitude affectent la fiabilité des grands modèles linguistiques (LLM) médicaux, au-delà des benchmarks simplifiés. Il perturbe systématiquement les options de réponse et leur cadrage sémantique, révélant qu'un nombre accru de réponses plausibles dégrade les performances des LLM et que la prudence diminue avec un libellé d'abstention incertain.

Ambiguity LLMs evaluation Reliability

RESEARCHarXiv CS.CL·01/05/2026

BatteryPass-12K: The First Dataset for the Novel Digital Battery Passport Conformance Task

Cet article présente BatteryPass-12K, le premier ensemble de données public pour la nouvelle tâche de classification de conformité des passeports numériques de batteries (DBP), répondant à un besoin crucial avant la réglementation de l'UE. Il évalue 22 modèles de langage, montrant que les modèles "pensants" comme GPT-5.4 obtiennent les meilleures performances, et que les exemples few-shot améliorent significativement les résultats.

evaluation Benchmarking Natural Language Processing datasets

RESEARCHarXiv CS.CL·16/04/2026

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context

KMMMU est un nouveau benchmark coréen natif pour évaluer la compréhension multimodale dans des contextes culturels et institutionnels coréens, comprenant 3 466 questions d'examens natifs. L'étude montre que les modèles d'IA actuels n'atteignent que 42,05 % de précision sur l'ensemble complet, avec des échecs importants sur des problèmes culturels et disciplinaires spécifiques.

language models multimodal AI evaluation Benchmarking

RESEARCHarXiv CS.CL·il y a 29j

IntentGrasp: A Comprehensive Benchmark for Intent Understanding

IntentGrasp est un nouveau benchmark complet pour évaluer la capacité de compréhension d'intention des LLM, dérivé de 49 corpus de haute qualité. Des évaluations approfondies sur 20 LLM ont montré des performances insatisfaisantes, avec des scores inférieurs à 60% sur l'All Set et 25% sur le Gem Set.

evaluation Benchmarking IntentGrasp intent understanding

RESEARCHarXiv CS.CL·il y a 7j

lmfaoooo at SemEval-2026 Task 1: Humor Is an Audience. Preference Modeling for Constrained Humor Generation

Cet article décrit un système pour la Tâche 1 du SemEval-2026, axée sur la génération d'humour sous contraintes explicites. L'approche utilise une stratégie

evaluation Natural Language Processing humor generation AI Research

RESEARCHarXiv CS.AI·il y a 22j

Does Theory of Mind Improvement Really Benefit Human-AI Interactions? Empirical Findings from Interactive Evaluations

Cet article propose un nouveau paradigme pour l'évaluation interactive des améliorations de la Théorie de l'Esprit (ToM) chez les grands modèles linguistiques (LLM) pour les interactions homme-IA. Des résultats empiriques, issus de jeux de données réels et d'une étude utilisateur, révèlent que les améliorations sur des benchmarks statiques ne se traduisent pas toujours par des bénéfices dans les interactions dynamiques homme-IA.

LLMs evaluation human-AI interaction empirical study

RESEARCHarXiv CS.CL·il y a 25j

When Evidence Conflicts: Uncertainty and Order Effects in Retrieval-Augmented Biomedical Question Answering

Cette recherche évalue les grands modèles de langage (LLMs) dans la réponse aux questions biomédicales, en abordant leur fiabilité face à des preuves conflictuelles ou incomplètes. Elle révèle que la précision des LLMs diminue significativement et que les prédictions s'inversent lorsque l'ordre des documents corrects et contradictoires est inversé, soulignant les problèmes d'effets d'ordre et la nécessité d'une abstention consciente des conflits.

LLMs evaluation Reliability Biomedical AI

RESEARCHarXiv CS.LG·il y a 7j

On Effectiveness and Efficiency of Agentic Tool-calling and RL Training

Cet article étudie l'appel d'outils chez les agents de grands modèles de langage (LLM), en se penchant sur leur efficacité et leur efficience. Il révèle que les pipelines d'évaluation sont sensibles aux choix d'implémentation et identifie un gaspillage computationnel dans l'apprentissage par renforcement.

LLMs evaluation reinforcement learning tool-calling

RESEARCHarXiv CS.CL·il y a 14j

Faithful or Fabricated? A Causal Framework for Rationalization Bias in LLM Judges

Cet article introduit un cadre causal pour étudier le biais de rationalisation chez les LLM utilisés comme juges automatiques pour l'évaluation de résumés et de dialogues. Il examine si les classements et les explications des LLM restent stables lorsque des indices non probants sont perturbés, en proposant des interventions d'indices et des métriques d'ancrage.

LLMs evaluation AI rationalization

RESEARCHarXiv CS.CL·il y a 8j

Protocol for evaluating ChatGPT in biomedical association generation and verification using a RAG-enabled, cross-model majority voting workflow

Ce protocole évalue la capacité de ChatGPT à générer et vérifier des associations biomédicales centrées sur les maladies, en utilisant des ontologies biomédicales et la littérature. Il intègre une stratégie d'auto-cohérence et un flux de travail activé par RAG, alimenté par des LLM open source, pour résoudre les limitations de correspondance exacte et détecter les hallucinations.

LLMs evaluation ChatGPT RAG

RESEARCHarXiv CS.CL·il y a 8j

CanLegalRAGBench: Evaluating Retrieval-Augmented Generation on Canadian Case Law

Cette recherche introduit CanLegalRAGBench, un nouveau benchmark canadien pour l'évaluation des systèmes de Génération Augmentée par Récupération (RAG) sur des questions juridiques, avec des requêtes réalistes et des réponses annotées par des experts. L'étude révèle la sensibilité de la performance de récupération, la compétitivité des modèles d'embedding open-source et les limites des évaluations automatiques et des hallucinations des LLM.

Retrieval Augmented Generation LLMs evaluation Legal AI