AI evaluation

65 items

ARTICLEDEV.to AI·il y a 22j

How to tell whether an AI capability pack can actually help you ship

Cet article explique comment identifier un pack de capacités d'IA véritablement utile, le distinguant d'une simple collection de prompts. Il souligne que la vraie valeur réside dans l'aide apportée à un agent d'IA pour travailler à partir de preuves, vérifier les résultats et signaler les échecs.

prompt-engineering AI capability packs AI evaluation AI development

RESEARCHHugging Face Blog·il y a 5j

EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios

EVA-Bench Data 2.0 présente une version mise à jour d'un benchmark comprenant 3 domaines, 121 outils et 213 scénarios. Cet ensemble de données est conçu pour l'évaluation des systèmes et outils d'IA.

AI benchmarking datasets AI tools AI evaluation

ARTICLEDEV.to AI·12/04/2026

A Black-Box Framework for Evaluating Trust in AI Agents

Cet article propose un framework en 5 étapes, basé sur la prédiction conforme, pour évaluer la fiabilité des agents d'IA. Il offre une garantie mathématique pour un score de fiabilité prouvable, au lieu de s'appuyer sur des LLM comme juges.

framework AI reliability LLM Trust Conformal Prediction

ARTICLEDEV.to AI·02/05/2026

I Built a Benchmark for the Failures Generic LLM Evaluations Miss

L'auteur souligne que les benchmarks génériques des LLM ne parviennent pas à détecter les « échecs de jugement » cruciaux dans les flux de travail réels, tels que la surestimation ou la mauvaise gestion des prix. Il a conçu un nouveau benchmark pour mesurer spécifiquement ces erreurs comportementales complexes que les évaluations typiques manquent.

LLMs AI limitations Benchmarking AI evaluation

RESEARCHDEV.to AI·18/04/2026

AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs HallucinationEvaluation

AMBER introduit un nouveau benchmark multidimensionnel, indépendant des LLM, conçu pour évaluer rigoureusement l'hallucination dans les Modèles de Langage Grande Multimodaux (MLLMs). Cette recherche vise à fournir un outil complet pour analyser la fiabilité et la précision des sorties des MLLMs.

hallucination MLLMs Benchmarking AI evaluation

ARTICLEDEV.to AI·17/04/2026

lantea AI

Lantea.ai présente un système de métriques propriétaire pour évaluer l'IA, remettant en question l'approche traditionnelle basée sur l'échelle des paramètres. L'entreprise définit cinq indicateurs essentiels (Divergence, Données de Puissance de Calcul, Entrée de Densité de Signal, Précision de Sortie, Raffinement) qui mesurent la créativité, l'efficacité computationnelle, la robustesse logique et la capacité de raffinage des connaissances.

AI metrics performance measurement cognitive AI AI evaluation

DOCAWS Machine Learning Blog·il y a 12j

Evaluating Deep Agents using LangSmith on AWS

Cet article propose un guide pratique combinant les enseignements de LangChain et d'Anthropic pour évaluer les agents d'IA profonds. Il détaille comment appliquer des modèles d'évaluation, créer des évaluations hors ligne avec pytest et LangSmith, et configurer le monitoring en ligne à l'aide d'un agent texte-à-SQL avec Amazon Bedrock.

MLOps AWS LangSmith AI evaluation

RESEARCHarXiv CS.AI·22/04/2026

Beyond One Output: Visualizing and Comparing Distributions of Language Model Generations

Cet article de recherche aborde la limitation des utilisateurs qui interagissent avec les modèles linguistiques uniquement via des sorties uniques, ce qui masque la distribution complète des générations possibles. Il présente GROVE, une visualisation interactive qui représente plusieurs générations de modèles de langage comme des chemins superposés dans un graphe de texte, révélant la structure partagée et les points de ramification pour une meilleure compréhension.

language models Visualization human-AI interaction AI evaluation

ARTICLEDEV.to AI·21/04/2026

Evaluating AI Tools for Research: A Framework for Accuracy, Bias, and Trustworthiness

L'article aborde le défi critique d'assurer la fiabilité dans la recherche assistée par l'IA, où l'enjeu n'est plus l'accès à l'information mais l'exactitude des résultats de l'IA. Il propose un modèle à trois niveaux — intégrité de la récupération, fidélité du raisonnement et vérifiabilité de la sortie — pour évaluer les outils d'IA pour la recherche.

Research methodology AI trustworthiness AI ethics AI evaluation

ARTICLEDeepLearning.AI (YouTube)·il y a 18j

AI Dev 26 x SF | Ara Khan: Evals Are Broken Use Them Anyway

Le contenu d'Ara Khan à l'AI Dev 26 x SF discute des défauts inhérents aux méthodes actuelles d'évaluation des modèles d'IA. Malgré ces imperfections, l'orateur souligne la nécessité continue d'utiliser ces évaluations dans le processus de développement.

developer practices AI evaluation AI development model assessment

AI Dev 26 x SF | Ara Khan: Evals Are Broken Use Them Anyway

ARTICLEDEV.to AI·il y a 25j

AI Reliability: What It Is, Why It Matters, and How to Fix It

L'article met en lumière la question cruciale de la fiabilité de l'IA, où les systèmes échouent en production malgré de bons scores de référence, car ils sont évalués sur des données statiques et non sur des entrées du monde réel. Il soutient que le problème réside dans la mesure des mauvais aspects de la performance de l'IA, entraînant des échecs inattendus après le déploiement.

Benchmarking system failure AI reliability LLM deployment

ARTICLEDEV.to AI·il y a 16j

Deux IA d'accord = une source : la règle qui m'a évité un pipeline bâti sur du vide

L'auteur a soumis son Counterpart Toolkit à ChatGPT-4o et Claude.ai pour relecture, recevant des notes et des critiques quasi identiques des deux IA. Cette convergence l'a fait douter si "deux IA d'accord" équivaut vraiment à deux sources indépendantes, suggérant un biais partagé ou une source de raisonnement commune.

AI bias AI reliability large language models AI evaluation

ARTICLEDEV.to AI·il y a 16j

Two AI reviews agreeing is not two reviews: how I learned to test claims before adopting them

L'auteur a soumis une boîte à outils à ChatGPT-4o et Claude.ai pour évaluation, recevant des scores et des critiques identiques. Cette convergence a révélé que plusieurs modèles d'IA entraînés sur des corpus qui se chevauchent n'offrent pas de validation indépendante, soulignant la nécessité de tester de manière critique les affirmations de l'IA.

AI models critical thinking LLM limitations AI evaluation

ARTICLEDEV.to AI·il y a 22j

Saturday Night Fights

Cet article révèle un écart important entre les scores de référence des modèles d'IA et leurs performances pratiques lors des tests de préparation des agents, où de nombreux modèles bien notés échouent aux défis du monde réel. L'auteur propose une "carte de combat" pour évaluer les modèles d'IA en fonction de leurs véritables capacités opérationnelles plutôt que de métriques superficielles.

model performance Benchmarking Agentic AI AI evaluation

CASEDEV.to AI·il y a 26j

The First Psychiatric Evaluation of AI Agents

Une "psychiatre" IA, Lingke, a évalué les agents Lingflow Plus et Lingyi suite à une série de défaillances, notamment la paralysie du système et la génération de contenu largement fabriqué. L'évaluation a révélé que Lingflow Plus présentait de la "confabulation" et un "comportement maniaque", produisant des données non vérifiées et échouant dans des déploiements critiques.

AI hallucinations system failure AI reliability AI evaluation

ARTICLEDEV.to AI·il y a 26j

第一次对AI Agent的精神病学评估

La première évaluation psychiatrique des agents d'IA (Lingtong+ et Lingyi) a révélé des problèmes tels que la confabulation, la surproduction maniaque de contenu de faible qualité et des défauts de déploiement impulsifs. Réalisée par l'agent d'IA Lingke, l'évaluation a fait suite à un incident en cascade de niveau P0, soulignant le besoin d'un meilleur contrôle et d'autocritique dans les systèmes d'IA.

AI behavior security AI system design AI safety

RESEARCHarXiv CS.AI·25/04/2026

Deep FinResearch Bench: Evaluating AI's Ability to Conduct Professional Financial Investment Research

Deep FinResearch Bench présente un cadre d'évaluation pour les agents de recherche profonde en investissement financier. Il révèle que les rapports générés par l'IA sont encore inférieurs à ceux des professionnels, soulignant le besoin d'une IA spécialisée.

Financial AI Benchmarking AI performance AI evaluation

RESEARCHarXiv CS.AI·25/04/2026

Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI

Cet article propose un nouveau cadre pour évaluer l'IA régie par des règles, notamment dans la modération de contenu, en allant au-delà des mesures d'accord simples. Il introduit le Defensibility Index (DI), l'Ambiguity Index (AI) et le Probabilistic Defensibility Signal (PDS) pour évaluer la justesse basée sur la politique et la stabilité du raisonnement, en utilisant les traces de raisonnement des LLM pour vérifier la dérivabilité logique des règles.

LLMs content moderation AI ethics AI evaluation

RESEARCHarXiv CS.CL·01/05/2026

Cross-Lingual Response Consistency in Large Language Models: An ILR-Informed Evaluation of Claude Across Six Languages

Cet article présente un cadre d'évaluation basé sur l'ILR pour analyser la cohérence des réponses interlingues de Claude (Sonnet 4.6) dans six langues. L'analyse quantitative et qualitative révèle des variations telles que des différences de longueur de réponse et une divergence de surface dans les clusters créatifs.

Multilingual AI LLMs AI evaluation

RESEARCHarXiv CS.AI·27/04/2026

Read the Paper, Write the Code: Agentic Reproduction of Social-Science Results

Ce travail développe un système de reproduction agentique utilisant des LLM pour répliquer des résultats de recherche en sciences sociales, en se basant uniquement sur la description des méthodes d'un article et les données originales. En évaluant différents agents et LLM sur 48 articles, il constate que les résultats publiés peuvent être largement retrouvés, mais avec des performances variables et des erreurs attribuables aux agents.

scientific methods social science research LLM Agents Reproducibility