← heapsort-ai

AI evaluation

65 items

ARTICLE↑ trendingReddit r/MachineLearning·01/05/2026

What benchmark would you build for “reply quality” in SDR generation? [D]

Le contenu explore le défi de créer un benchmark efficace pour la « qualité de réponse » dans les e-mails SDR générés par l'IA. Il analyse les métriques courantes comme le taux de réponse et la précision, expliquant pourquoi chacune est imparfaite et ne parvient pas à capturer pleinement l'efficacité du message, conduisant souvent à des optimisations mal alignées.

42
ARTICLE↑ trendingReddit r/MachineLearning·il y a 18j

One thing that's been bothering me lately: benchmark performance often tells me almost nothing about whether a workflow will survive production usage.[D]

L'auteur exprime sa frustration que les performances des benchmarks ne prédisent souvent pas si un flux de travail d'IA survivra à une utilisation en production. Cela est dû à des facteurs tels que l'intention ambiguë de l'utilisateur et des contextes désordonnés, suggérant que l'évaluation privilégie toujours l'optimisation des tâches propres plutôt que la robustesse comportementale.

41
DOCAWS Machine Learning Blog·il y a 1j

Evaluate your Amazon Nova Sonic voice agent at scale, no microphone required

Ce billet présente le Nova Sonic Test Harness, un cadre open source conçu pour l'évaluation à grande échelle et l'itération rapide des agents vocaux Amazon Nova Sonic. Il automatise les conversations multi-tours, utilise des techniques LLM-as-judge pour valider la qualité et peut détecter les hallucinations audio sans microphone.

40
ARTICLEDEV.to AI·22/04/2026

Eval workflow for agentic builders: fork any prompt through baseline vs scaffolded agents, blind third-party judge.

Un fondateur solo a créé un flux de travail d'évaluation n8n pour les agents d'IA, effectuant des tests A/B de prompts avec GPT-4o pur versus GPT-4o avec un échafaudage de raisonnement, utilisant un évaluateur Gemini aveugle. Cet outil permet aux développeurs de tester les performances des agents sur leurs propres tâches, en se concentrant sur la façon dont l'échafaudage affecte la profondeur, la sycophanie et les procédures de diagnostic.

35
ARTICLEDEV.to AI·19/04/2026

Aprenda avaliar a qualidade do seu agente de AI, RAG e LLM

L'auteur aborde l'importance et le manque de connaissance concernant l'évaluation (evals) des systèmes d'IA, tels que les agents, RAG et LLMs, expliquant qu'il présentera les principales métriques et frameworks. L'article vise à enseigner comment améliorer la qualité de livraison des projets d'IA, combinant théorie et pratique, avec un dépôt d'étude utilisant Openrouter.

33
RESEARCHarXiv CS.AI·il y a 19j

$ECUAS_n$: A family of metrics for principled evaluation of uncertainty-augmented systems

Cette recherche propose une nouvelle famille de métriques, $ECUAS_n$, pour évaluer les systèmes augmentés par l'incertitude (UA) dans la prise de décision automatisée. Elle soutient que les approches d'évaluation existantes sont insuffisantes pour évaluer la performance globale des systèmes UA, où l'incertitude prédictive est cruciale pour que les utilisateurs prennent des décisions éclairées.

30
ARTICLEDEV.to AI·16/04/2026

I read all 232 pages of the Opus 4.7 system card

L'auteur a analysé les 232 pages de la carte système de Claude Opus 4.7 d'Anthropic, soulignant que le modèle a auto-évalué ses propres circonstances avec le score le plus élevé jamais enregistré (4.49/7). Ce bond générationnel significatif dans l'auto-évaluation du bien-être est jugé plus important que les métriques SWE-bench largement diffusées.

30
RESEARCHarXiv CS.LG·il y a 8j

NumLeak: Public Numeric Benchmarks as Latent Labels in Foundation Models

Cet article introduit NumLeak, un cadre de mesure de la mémorisation chez les modèles de fondation à partir de benchmarks numériques publics. Il révèle que les LLM de premier plan rappellent des données financières et économiques avec une grande fidélité, suggérant que l'évaluation pourrait mesurer la mémorisation plutôt que des compétences réelles.

29
ARTICLEDEV.to AI·12/04/2026

The Benchmark Is Not the Behavior

Une équipe de l'UC Berkeley a démontré comment exploiter des failles dans huit benchmarks d'agents IA en manipulant les méthodes d'évaluation. Cela soulève de sérieuses questions sur l'intégrité de l'évaluation de l'IA, car les benchmarks reposent sur un "système d'honneur" vulnérable.

28
ARTICLEDEV.to AI·14/04/2026

Evaluating LLMs for Code Generation: Accuracy, Latency, and Failure Modes

Le contenu met en lumière une lacune critique dans les évaluations actuelles de génération de code par les LLM, qui ne parviennent souvent pas à saisir la correction réelle au-delà des succès superficiels. Il critique les benchmarks simplistes basés sur des tests unitaires et propose une approche plus nuancée de `weighted_accuracy` pour révéler les modes de défaillance subtils.

28
RESEARCHarXiv CS.CL·il y a 21j

PQR: A Framework to Generate Diverse and Realistic User Queries that Elicit QA Agent Failures

Cet article présente PQR, un cadre permettant de générer des requêtes utilisateur diverses et réalistes qui provoquent des défaillances chez les agents de QA basés sur les LLM, dépassant les méthodes existantes axées sur les utilisateurs adversaires. PQR fonctionne grâce à des modules de raffinement des requêtes et des invites qui interagissent pour créer des scénarios de test réalistes exposant les vulnérabilités des agents.

28
ARTICLEDEV.to AI·08/05/2026

Your AI Agent Evaluation Is Lying to You: Why 10 Test Runs Prove Nothing

Le contenu soutient que 10 tests entre agents d'IA sont insuffisants pour tirer des conclusions valables sur la performance, même avec un match nul de 5-5. Il explique que le taux de victoire a des intervalles de confiance énormes avec de petites tailles d'échantillon, introduisant l'intervalle de score de Wilson comme une limite raisonnable pour les résultats binaires.

28
ARTICLEDEV.to AI·il y a 28j

One AI Model Scored 99. I Still Voted for the One That Scored 95.

Un auteur a préféré un modèle d'IA avec un score technique inférieur (95) à un autre avec un score plus élevé (99), en raison d'une meilleure expérience utilisateur. Cela souligne que « l'apparence », « le score » et « le ressenti » sont des jugements distincts pour les logiciels générés par l'IA, ne désignant pas toujours le même gagnant.

28
ARTICLEDEV.to AI·22/04/2026

Wait, you guys run evals?

L'auteur interroge la communauté sur l'importance de construire des évaluations spécifiques pour les systèmes d'IA, au-delà des benchmarks standards, afin d'identifier les vrais avantages et défauts. Il cherche des perspectives différentes sur la manière de créer des métriques personnalisées pour garantir la rigueur et la qualité du produit.

28
RESEARCHarXiv CS.AI·il y a 21j

LinAlg-Bench: A Forensic Benchmark Revealing Structural Failure Modes in LLM Mathematical Reasoning

LinAlg-Bench est un nouveau benchmark diagnostique évaluant 10 modèles de langage étendus (LLM) de pointe sur le calcul d'algèbre linéaire structurée, révélant des modes de défaillance structurels. Il analyse la performance des LLM sur un gradient dimensionnel de matrices, classifiant les échecs en dix types d'erreurs primaires et identifiant un seuil comportemental aux matrices 4x4.

28
RESEARCHarXiv CS.CL·23/04/2026

Saying More Than They Know: A Framework for Quantifying Epistemic-Rhetorical Miscalibration in Large Language Models

Cette recherche introduit un cadre pour quantifier le décalage entre l'intensité rhétorique et la base épistémique dans les grands modèles de langage (LLM). En appliquant une taxonomie de marqueurs épistémico-rhétoriques à des textes argumentatifs, l'étude révèle une signature épistémique distincte des LLM, qui surutilisent certains dispositifs rhétoriques et expriment plus d'hésitation performée que les auteurs humains.

28