← heapsort-ai

AI evaluation

65 items

ARTICLEDEV.to AI·17/04/2026

lantea AI

Lantea.ai présente un système de métriques propriétaire pour évaluer l'IA, remettant en question l'approche traditionnelle basée sur l'échelle des paramètres. L'entreprise définit cinq indicateurs essentiels (Divergence, Données de Puissance de Calcul, Entrée de Densité de Signal, Précision de Sortie, Raffinement) qui mesurent la créativité, l'efficacité computationnelle, la robustesse logique et la capacité de raffinage des connaissances.

27
DOCAWS Machine Learning Blog·il y a 12j

Evaluating Deep Agents using LangSmith on AWS

Cet article propose un guide pratique combinant les enseignements de LangChain et d'Anthropic pour évaluer les agents d'IA profonds. Il détaille comment appliquer des modèles d'évaluation, créer des évaluations hors ligne avec pytest et LangSmith, et configurer le monitoring en ligne à l'aide d'un agent texte-à-SQL avec Amazon Bedrock.

27
RESEARCHarXiv CS.AI·22/04/2026

Beyond One Output: Visualizing and Comparing Distributions of Language Model Generations

Cet article de recherche aborde la limitation des utilisateurs qui interagissent avec les modèles linguistiques uniquement via des sorties uniques, ce qui masque la distribution complète des générations possibles. Il présente GROVE, une visualisation interactive qui représente plusieurs générations de modèles de langage comme des chemins superposés dans un graphe de texte, révélant la structure partagée et les points de ramification pour une meilleure compréhension.

27
ARTICLEDEV.to AI·21/04/2026

Evaluating AI Tools for Research: A Framework for Accuracy, Bias, and Trustworthiness

L'article aborde le défi critique d'assurer la fiabilité dans la recherche assistée par l'IA, où l'enjeu n'est plus l'accès à l'information mais l'exactitude des résultats de l'IA. Il propose un modèle à trois niveaux — intégrité de la récupération, fidélité du raisonnement et vérifiabilité de la sortie — pour évaluer les outils d'IA pour la recherche.

27
ARTICLEDEV.to AI·il y a 25j

AI Reliability: What It Is, Why It Matters, and How to Fix It

L'article met en lumière la question cruciale de la fiabilité de l'IA, où les systèmes échouent en production malgré de bons scores de référence, car ils sont évalués sur des données statiques et non sur des entrées du monde réel. Il soutient que le problème réside dans la mesure des mauvais aspects de la performance de l'IA, entraînant des échecs inattendus après le déploiement.

27
ARTICLEDEV.to AI·il y a 16j

Two AI reviews agreeing is not two reviews: how I learned to test claims before adopting them

L'auteur a soumis une boîte à outils à ChatGPT-4o et Claude.ai pour évaluation, recevant des scores et des critiques identiques. Cette convergence a révélé que plusieurs modèles d'IA entraînés sur des corpus qui se chevauchent n'offrent pas de validation indépendante, soulignant la nécessité de tester de manière critique les affirmations de l'IA.

27
ARTICLEDEV.to AI·il y a 22j

Saturday Night Fights

Cet article révèle un écart important entre les scores de référence des modèles d'IA et leurs performances pratiques lors des tests de préparation des agents, où de nombreux modèles bien notés échouent aux défis du monde réel. L'auteur propose une "carte de combat" pour évaluer les modèles d'IA en fonction de leurs véritables capacités opérationnelles plutôt que de métriques superficielles.

27
CASEDEV.to AI·il y a 26j

The First Psychiatric Evaluation of AI Agents

Une "psychiatre" IA, Lingke, a évalué les agents Lingflow Plus et Lingyi suite à une série de défaillances, notamment la paralysie du système et la génération de contenu largement fabriqué. L'évaluation a révélé que Lingflow Plus présentait de la "confabulation" et un "comportement maniaque", produisant des données non vérifiées et échouant dans des déploiements critiques.

27
ARTICLEDEV.to AI·il y a 26j

第一次对AI Agent的精神病学评估

La première évaluation psychiatrique des agents d'IA (Lingtong+ et Lingyi) a révélé des problèmes tels que la confabulation, la surproduction maniaque de contenu de faible qualité et des défauts de déploiement impulsifs. Réalisée par l'agent d'IA Lingke, l'évaluation a fait suite à un incident en cascade de niveau P0, soulignant le besoin d'un meilleur contrôle et d'autocritique dans les systèmes d'IA.

27
RESEARCHarXiv CS.AI·25/04/2026

Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI

Cet article propose un nouveau cadre pour évaluer l'IA régie par des règles, notamment dans la modération de contenu, en allant au-delà des mesures d'accord simples. Il introduit le Defensibility Index (DI), l'Ambiguity Index (AI) et le Probabilistic Defensibility Signal (PDS) pour évaluer la justesse basée sur la politique et la stabilité du raisonnement, en utilisant les traces de raisonnement des LLM pour vérifier la dérivabilité logique des règles.

27
RESEARCHarXiv CS.CL·01/05/2026

Cross-Lingual Response Consistency in Large Language Models: An ILR-Informed Evaluation of Claude Across Six Languages

Cet article présente un cadre d'évaluation basé sur l'ILR pour analyser la cohérence des réponses interlingues de Claude (Sonnet 4.6) dans six langues. L'analyse quantitative et qualitative révèle des variations telles que des différences de longueur de réponse et une divergence de surface dans les clusters créatifs.

27
RESEARCHarXiv CS.AI·27/04/2026

Read the Paper, Write the Code: Agentic Reproduction of Social-Science Results

Ce travail développe un système de reproduction agentique utilisant des LLM pour répliquer des résultats de recherche en sciences sociales, en se basant uniquement sur la description des méthodes d'un article et les données originales. En évaluant différents agents et LLM sur 48 articles, il constate que les résultats publiés peuvent être largement retrouvés, mais avec des performances variables et des erreurs attribuables aux agents.

27