AI evaluation

65 items

RESEARCHarXiv CS.CL·il y a 1j

Re-Centering Humans in LLM Personalization

Cet article étudie l'écart de performance de la personnalisation des LLM entre les données synthétiques et humaines. Il révèle que les données humaines exposent des limitations significatives du système dans l'extraction d'attributs, la pertinence des attributs et la génération de réponses véritablement personnalisées.

user data synthetic data LLM personalization AI evaluation

DOC↑ trendingReddit r/MachineLearning·22/04/2026

Need Info on quality benchmarks to run on DeepSeek V3.2 different quant levels [D]

Un utilisateur demande quels benchmarks de qualité exécuter pour mesurer la dégradation des performances lors de l'application de la quantification en temps réel au grand modèle linguistique DeepSeek V3.2. L'objectif est de comparer la perte de qualité par rapport à la version non quantifiée.

Benchmarking quantization model optimization AI evaluation

ARTICLE↑ trendingReddit r/MachineLearning·01/05/2026

What benchmark would you build for “reply quality” in SDR generation? [D]

Le contenu explore le défi de créer un benchmark efficace pour la « qualité de réponse » dans les e-mails SDR générés par l'IA. Il analyse les métriques courantes comme le taux de réponse et la précision, expliquant pourquoi chacune est imparfaite et ne parvient pas à capturer pleinement l'efficacité du message, conduisant souvent à des optimisations mal alignées.

AI applications Benchmarking SDR AI evaluation

ARTICLEDEV.to AI·il y a 1j

Enhancing LLM Reliability with Evaluation Engineering

Cet article explore comment l'ingénierie d'évaluation est cruciale pour améliorer la fiabilité des Large Language Models (LLM), en abordant ses principes et techniques. En se concentrant sur cette discipline, les organisations peuvent garantir que leurs LLM sont efficaces et répondent aux exigences des applications du monde réel.

Reliability Evaluation Engineering AI evaluation LLM

ARTICLE↑ trendingReddit r/MachineLearning·il y a 18j

One thing that's been bothering me lately: benchmark performance often tells me almost nothing about whether a workflow will survive production usage.[D]

L'auteur exprime sa frustration que les performances des benchmarks ne prédisent souvent pas si un flux de travail d'IA survivra à une utilisation en production. Cela est dû à des facteurs tels que l'intention ambiguë de l'utilisateur et des contextes désordonnés, suggérant que l'évaluation privilégie toujours l'optimisation des tâches propres plutôt que la robustesse comportementale.

model robustness Benchmarking production readiness AI evaluation

DOCAWS Machine Learning Blog·il y a 1j

Evaluate your Amazon Nova Sonic voice agent at scale, no microphone required

Ce billet présente le Nova Sonic Test Harness, un cadre open source conçu pour l'évaluation à grande échelle et l'itération rapide des agents vocaux Amazon Nova Sonic. Il automatise les conversations multi-tours, utilise des techniques LLM-as-judge pour valider la qualité et peut détecter les hallucinations audio sans microphone.

LLM-as-judge Open Source Voice Agents Amazon Nova Sonic

ARTICLEDEV.to AI·22/04/2026

Eval workflow for agentic builders: fork any prompt through baseline vs scaffolded agents, blind third-party judge.

Un fondateur solo a créé un flux de travail d'évaluation n8n pour les agents d'IA, effectuant des tests A/B de prompts avec GPT-4o pur versus GPT-4o avec un échafaudage de raisonnement, utilisant un évaluateur Gemini aveugle. Cet outil permet aux développeurs de tester les performances des agents sur leurs propres tâches, en se concentrant sur la façon dont l'échafaudage affecte la profondeur, la sycophanie et les procédures de diagnostic.

prompt-engineering agent development LLM testing AI evaluation

ARTICLEDEV.to AI·19/04/2026

Aprenda avaliar a qualidade do seu agente de AI, RAG e LLM

L'auteur aborde l'importance et le manque de connaissance concernant l'évaluation (evals) des systèmes d'IA, tels que les agents, RAG et LLMs, expliquant qu'il présentera les principales métriques et frameworks. L'article vise à enseigner comment améliorer la qualité de livraison des projets d'IA, combinant théorie et pratique, avec un dépôt d'étude utilisant Openrouter.

frameworks RAG Metrics AI evaluation

RESEARCHarXiv CS.AI·il y a 19j

$ECUAS_n$: A family of metrics for principled evaluation of uncertainty-augmented systems

Cette recherche propose une nouvelle famille de métriques, $ECUAS_n$, pour évaluer les systèmes augmentés par l'incertitude (UA) dans la prise de décision automatisée. Elle soutient que les approches d'évaluation existantes sont insuffisantes pour évaluer la performance globale des systèmes UA, où l'incertitude prédictive est cruciale pour que les utilisateurs prennent des décisions éclairées.

Decision Making predictive uncertainty Metrics uncertainty

RESEARCHLangChain Blog·il y a 7j

Designing Efficient Verifiers for Legal Agents

Une étude de Harvey et LangChain Labs se concentre sur le développement de vérificateurs LLM plus économiques et fiables. Cette recherche vise à améliorer l'évaluation et la post-formation pour les agents d'IA juridiques.

LLM verifiers LangChain Legal AI AI evaluation

Designing Efficient Verifiers for Legal Agents

ARTICLEDEV.to AI·16/04/2026

I read all 232 pages of the Opus 4.7 system card

L'auteur a analysé les 232 pages de la carte système de Claude Opus 4.7 d'Anthropic, soulignant que le modèle a auto-évalué ses propres circonstances avec le score le plus élevé jamais enregistré (4.49/7). Ce bond générationnel significatif dans l'auto-évaluation du bien-être est jugé plus important que les métriques SWE-bench largement diffusées.

AI models LLMs AI safety AI evaluation

RESEARCHarXiv CS.LG·il y a 8j

NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models

Cet article introduit NumLeak, un cadre de mesure de la mémorisation chez les modèles de fondation à partir de benchmarks numériques publics. Il révèle que les LLM de premier plan rappellent des données financières et économiques avec une grande fidélité, suggérant que l'évaluation pourrait mesurer la mémorisation plutôt que des compétences réelles.

LLM memorization Foundation Models data leakage Benchmarking

ARTICLEDEV.to AI·12/04/2026

The Benchmark Is Not the Behavior

Une équipe de l'UC Berkeley a démontré comment exploiter des failles dans huit benchmarks d'agents IA en manipulant les méthodes d'évaluation. Cela soulève de sérieuses questions sur l'intégrité de l'évaluation de l'IA, car les benchmarks reposent sur un "système d'honneur" vulnérable.

AI Benchmarks research integrity AI evaluation

ARTICLEDEV.to AI·14/04/2026

Evaluating LLMs for Code Generation: Accuracy, Latency, and Failure Modes

Le contenu met en lumière une lacune critique dans les évaluations actuelles de génération de code par les LLM, qui ne parviennent souvent pas à saisir la correction réelle au-delà des succès superficiels. Il critique les benchmarks simplistes basés sur des tests unitaires et propose une approche plus nuancée de `weighted_accuracy` pour révéler les modes de défaillance subtils.

LLMs accuracy Benchmarking code generation

RESEARCHarXiv CS.CL·il y a 21j

PQR: A Framework to Generate Diverse and Realistic User Queries that Elicit QA Agent Failures

Cet article présente PQR, un cadre permettant de générer des requêtes utilisateur diverses et réalistes qui provoquent des défaillances chez les agents de QA basés sur les LLM, dépassant les méthodes existantes axées sur les utilisateurs adversaires. PQR fonctionne grâce à des modules de raffinement des requêtes et des invites qui interagissent pour créer des scénarios de test réalistes exposant les vulnérabilités des agents.

LLMs QA agents failure detection query generation

ARTICLEDEV.to AI·08/05/2026

Your AI Agent Evaluation Is Lying to You: Why 10 Test Runs Prove Nothing

Le contenu soutient que 10 tests entre agents d'IA sont insuffisants pour tirer des conclusions valables sur la performance, même avec un match nul de 5-5. Il explique que le taux de victoire a des intervalles de confiance énormes avec de petites tailles d'échantillon, introduisant l'intervalle de score de Wilson comme une limite raisonnable pour les résultats binaires.

confidence interval Testing agent comparison Statistics

ARTICLEDEV.to AI·il y a 28j

One AI Model Scored 99. I Still Voted for the One That Scored 95.

Un auteur a préféré un modèle d'IA avec un score technique inférieur (95) à un autre avec un score plus élevé (99), en raison d'une meilleure expérience utilisateur. Cela souligne que « l'apparence », « le score » et « le ressenti » sont des jugements distincts pour les logiciels générés par l'IA, ne désignant pas toujours le même gagnant.

user experience software quality AI evaluation AI development

ARTICLEDEV.to AI·22/04/2026

Wait, you guys run evals?

L'auteur interroge la communauté sur l'importance de construire des évaluations spécifiques pour les systèmes d'IA, au-delà des benchmarks standards, afin d'identifier les vrais avantages et défauts. Il cherche des perspectives différentes sur la manière de créer des métriques personnalisées pour garantir la rigueur et la qualité du produit.

Benchmarking AI evaluation model development

RESEARCHarXiv CS.AI·il y a 21j

LinAlg-Bench: A Forensic Benchmark Revealing Structural Failure Modes in LLM Mathematical Reasoning

LinAlg-Bench est un nouveau benchmark diagnostique évaluant 10 modèles de langage étendus (LLM) de pointe sur le calcul d'algèbre linéaire structurée, révélant des modes de défaillance structurels. Il analyse la performance des LLM sur un gradient dimensionnel de matrices, classifiant les échecs en dix types d'erreurs primaires et identifiant un seuil comportemental aux matrices 4x4.

mathematical reasoning Benchmarking linear algebra AI evaluation

RESEARCHarXiv CS.CL·23/04/2026

Saying More Than They Know: A Framework for Quantifying Epistemic-Rhetorical Miscalibration in Large Language Models

Cette recherche introduit un cadre pour quantifier le décalage entre l'intensité rhétorique et la base épistémique dans les grands modèles de langage (LLM). En appliquant une taxonomie de marqueurs épistémico-rhétoriques à des textes argumentatifs, l'étude révèle une signature épistémique distincte des LLM, qui surutilisent certains dispositifs rhétoriques et expriment plus d'hésitation performée que les auteurs humains.

LLMs AI ethics AI evaluation