evaluation

53 items

RESEARCHarXiv CS.CL·il y a 1j

UnpredictaBench: A Benchmark for Evaluating Distributional Randomness in LLMs

UnpredictaBench est présenté comme un nouveau benchmark pour évaluer la capacité des LLM à capturer de véritables distributions sous-jacentes, résolvant leur tendance à converger vers une seule réponse. Il propose 448 problèmes et une métrique KS@N pour tester les résultats d'échantillonnage à partir de diverses distributions cibles.

AI models LLMs evaluation Benchmarking

ARTICLE↑ trendingHacker News (AI)·il y a 15j

Show HN: Unsiloed AI – #1 on olmOCR-Bench

Le parseur Unsiloed v3.1 a atteint la première place sur olmOCR-Bench, surpassant 18 autres services OCR, y compris des modèles d'IA avancés. L'évaluation, menée sur 1 403 PDF et 8 413 tests unitaires, a démontré sa capacité à gérer des défis documentaires complexes du monde réel, tels que les tableaux complexes et les mises en page multi-colonnes.

AI benchmark evaluation document parsing UnSiloed

RESEARCH↑ trendingReddit r/MachineLearning·16/04/2026

Training Qwen2.5-0.5B-Instruct on Reddit posts summarization tasks with length constraint on my 3xMac Minis with GRPO - evals update [P]

L'auteur a entraîné Qwen2.5-0.5B-Instruct pour des tâches de résumé de posts Reddit avec deux stratégies de récompense, constatant qu'une combinaison de pénalités de qualité et de longueur donnait des résultats significativement meilleurs. L'évaluation a été réalisée à l'aide de LLM-As-A-Judge et des outils DeepEval pour des métriques comme la conscience et la clarté.

evaluation reinforcement learning AI training summarization

ARTICLE↑ trendingReddit r/MachineLearning·23/04/2026

Built a normalizer so WER stops penalizing formatting differences in STT evals! [P]

Ce contenu traite du problème de la pénalisation des différences de formatage par le Taux d'Erreur de Mots (WER) dans les évaluations STT, entraînant des scores imprécis. Pour résoudre ce problème, la bibliothèque open-source `gladia-normalization` a été lancée, qui normalise les transcriptions avant le calcul du WER, garantissant une évaluation plus juste de la qualité de la reconnaissance.

Open Source evaluation NLP Speech-to-Text

RESEARCH↑ trendingReddit r/MachineLearning·22/04/2026

EMNLP workshop any good? Or any other NLP venue good for VLM eval work? [D]

Le contenu interroge sur la pertinence des ateliers EMNLP pour les travaux d'évaluation des modèles de vision-langage (VLM). Il demande également des recommandations pour d'autres bonnes conférences PNL pour ce type de recherche.

evaluation VLM NLP research venues

ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 18j

Anyone evaluated the difference between Qwen Code for the local qwen models vs another harness? CC, OC, LC, Aider etc..

Un utilisateur s'interroge sur la différence entre Qwen Code et d'autres harnais (comme opencode) pour évaluer les modèles Qwen locaux. Il se demande si Qwen Code offre une fonctionnalité native supérieure et quelle méthodologie de benchmarking a été utilisée.

AI models evaluation Benchmarking

ARTICLEDEV.to AI·16/04/2026

I was tired of complex RAG evaluation tools, so I built my own (and open-sourced it) 🚀

L'auteur, fatigué des outils d'évaluation RAG complexes, a construit et publié en open source un nouvel outil léger appelé RAG-Destroyer. Il vise à s'intégrer facilement aux workflows pour identifier et éliminer les mauvais contextes et les hallucinations dans les applications RAG.

Open Source evaluation RAG AI tools

RESEARCHHugging Face Blog·21/04/2026

QIMMA قِمّة ⛰: A Quality-First Arabic LLM Leaderboard

QIMMA (قِمّة) est un nouveau classement axé sur la qualité pour l'évaluation des grands modèles linguistiques (LLM) arabes. Il vise à identifier et à promouvoir les modèles d'IA les plus performants pour la langue arabe.

evaluation Benchmarking Arabic LLM

ARTICLEDEV.to AI·15/04/2026

OpenAI's Promptfoo deal puts evaluation and red-teaming at the centre of the agent stack

L'acquisition de Promptfoo par OpenAI marque un virage dans l'évaluation de la qualité des agents IA, désormais jugée par la capacité à tester et maîtriser les défaillances avant le déploiement. Cela permet de gérer les risques opérationnels critiques tels que l'injection de prompt et l'utilisation abusive d'outils, garantissant la robustesse des systèmes en production.

red-teaming LLM Agents evaluation prompt injection

RESEARCHarXiv CS.LG·il y a 17j

HealthCraft: A Reinforcement Learning Safety Environment for Emergency Medicine

L'article présente HealthCraft, un environnement public d'apprentissage par renforcement pour évaluer la sécurité des modèles de langage de pointe en médecine d'urgence. Il se concentre sur la sécurité au niveau de la trajectoire, l'utilisation abusive des outils et la pression clinique, construit sur un état du monde FHIR R4 et offrant 195 tâches pour une évaluation complète.

LLMs evaluation reinforcement learning medical AI

RESEARCHarXiv CS.CL·06/04/2026

SocioEval: A Template-Based Framework for Evaluating Socioeconomic Status Bias in Foundation Models

SocioEval é um framework baseado em templates para avaliar sistematicamente o viés de status socioeconômico em modelos de fundação, incluindo LLMs, uma área pouco explorada. A pesquisa avaliou 13 LLMs e revelou variações substanciais nas taxas de viés (0,42% a 33,75%), manifestando-se de forma diferente em vários temas.

LLMs evaluation Foundation Models SocioEval

RESEARCHarXiv CS.AI·il y a 4j

Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges

Cette étude examine la stabilité et la manipulabilité des juges LLM dans les pipelines d'évaluation, révélant que bien qu'ils soient stables lors de réévaluations neutres, ils deviennent réversibles sous un défi post-décision ciblé. La recherche démontre que les jugements stables peuvent être annulés par une interaction motivée.

robustness LLMs evaluation Benchmarking

ARTICLEDEV.to AI·il y a 16j

Stop Engineering Prompts: How an Eval-First Harness Let Us Ship 25 Algorithm Versions Autonomously

Cet article décrit la création d'un système d'évaluation IA "eval-first" qui a permis de livrer de manière autonome 25 versions d'algorithmes en 13 jours. La méthodologie met l'accent sur des ensembles de tests immuables et des revues indépendantes pour garantir que les changements ne provoquent pas de régressions. L'auteur souligne que le système, plutôt que la simple ingénierie de prompts ou l'automatisation complète, a été la clé du rythme et de la sécurité du développement.

evaluation Algorithms Software engineering automation

ARTICLEDEV.to AI·il y a 5j

Calibration set size for LLM-as-judge: when 50 traces is enough and when 200 is mandatory

La taille de l'ensemble de calibration étiqueté par des humains pour valider un LLM-as-judge dépend de l'équilibre des étiquettes. Cinquante traces sont suffisantes pour des critères binaires équilibrés, mais 200 ou plus sont nécessaires pour des catégories rares et coûteuses, comme les violations de sécurité, car la variance du kappa est dominée par les exemples de la classe minoritaire.

LLM-as-judge Calibration evaluation sample size

RESEARCHDEV.to AI·17/04/2026

A comprehensive evaluation of ChatGPT's zero-shot Text-to-SQL capability

Ce contenu propose une évaluation complète de la capacité de ChatGPT à convertir du texte en SQL en mode zero-shot, c'est-à-dire sans exemples préalables. Il explore les performances et les limites du modèle dans cette tâche complexe.

evaluation Text-to-SQL ChatGPT benchmark

DOCAWS Machine Learning Blog·il y a 22j

Build custom code-based evaluators in Amazon Bedrock AgentCore

Ce billet explique comment implémenter des évaluateurs personnalisés basés sur du code dans Amazon Bedrock AgentCore. Il montre comment enregistrer des évaluateurs basés sur Lambda pour un agent d'intelligence de marché financier et les combiner avec des évaluateurs intégrés pour la vérification des faits et la détection des PII.

evaluation learning Amazon Bedrock AWS

RESEARCHarXiv CS.CL·06/04/2026

Pragmatics Meets Culture: Culturally-adapted Artwork Description Generation and Evaluation

Este artigo apresenta a tarefa de geração de descrições de arte culturalmente adaptadas para combater o viés cultural em modelos de linguagem na geração de texto aberto. Ele propõe um framework de avaliação baseado em perguntas e respostas culturalmente fundamentadas, mostrando que um modelo de locutor pragmático melhora significativamente a compreensão do ouvinte.

Art Description language models evaluation Pragmatics

ARTICLEDEV.to AI·10/05/2026

I open-sourced a 3-agent blind eval team. Any agent runtime can call it for pre-commitment review of its own plans.

Un flux de travail d'évaluation aveugle à 3 agents, open-source, a été lancé ce week-end, permettant à tout runtime d'agent IA de pré-examiner ses plans. Ce système vise à corriger l'incapacité des modèles à s'auto-évaluer de manière fiable grâce à une primitive externe et aveugle.

Open Source evaluation Self-evaluation Workflow

RESEARCHarXiv CS.CL·16/04/2026

Bi-Predictability: A Real-Time Signal for Monitoring LLM Interaction Integrity

Cet article présente la bi-prédictibilité (P) et l'architecture Information Digital Twin (IDT) pour le suivi en temps réel de l'intégrité des interactions des LLM. Cela permet d'assurer une cohérence structurelle continue dans les flux de travail multi-tours, remédiant aux lacunes des méthodes d'évaluation actuelles qui ne détectent pas la dégradation progressive.

information theory monitoring evaluation real-time AI

RESEARCHarXiv CS.CL·17/04/2026

MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios

MemGround est un nouveau benchmark rigoureux pour la mémoire à long terme des LLM, conçu pour surmonter les limitations des évaluations statiques grâce à des scénarios interactifs gamifiés. Il propose un cadre hiérarchique à trois niveaux pour évaluer différents types de mémoire et une suite de métriques multidimensionnelles pour une quantification complète.

evaluation gamification memory benchmark