← heapsort-ai

evaluation

53 items

ARTICLE↑ trendingHacker News (AI)·il y a 15j

Show HN: Unsiloed AI – #1 on olmOCR-Bench

Le parseur Unsiloed v3.1 a atteint la première place sur olmOCR-Bench, surpassant 18 autres services OCR, y compris des modèles d'IA avancés. L'évaluation, menée sur 1 403 PDF et 8 413 tests unitaires, a démontré sa capacité à gérer des défis documentaires complexes du monde réel, tels que les tableaux complexes et les mises en page multi-colonnes.

42
RESEARCH↑ trendingReddit r/MachineLearning·16/04/2026

Training Qwen2.5-0.5B-Instruct on Reddit posts summarization tasks with length constraint on my 3xMac Minis with GRPO - evals update [P]

L'auteur a entraîné Qwen2.5-0.5B-Instruct pour des tâches de résumé de posts Reddit avec deux stratégies de récompense, constatant qu'une combinaison de pénalités de qualité et de longueur donnait des résultats significativement meilleurs. L'évaluation a été réalisée à l'aide de LLM-As-A-Judge et des outils DeepEval pour des métriques comme la conscience et la clarté.

42
ARTICLE↑ trendingReddit r/MachineLearning·23/04/2026

Built a normalizer so WER stops penalizing formatting differences in STT evals! [P]

Ce contenu traite du problème de la pénalisation des différences de formatage par le Taux d'Erreur de Mots (WER) dans les évaluations STT, entraînant des scores imprécis. Pour résoudre ce problème, la bibliothèque open-source `gladia-normalization` a été lancée, qui normalise les transcriptions avant le calcul du WER, garantissant une évaluation plus juste de la qualité de la reconnaissance.

42
ARTICLEDEV.to AI·15/04/2026

OpenAI's Promptfoo deal puts evaluation and red-teaming at the centre of the agent stack

L'acquisition de Promptfoo par OpenAI marque un virage dans l'évaluation de la qualité des agents IA, désormais jugée par la capacité à tester et maîtriser les défaillances avant le déploiement. Cela permet de gérer les risques opérationnels critiques tels que l'injection de prompt et l'utilisation abusive d'outils, garantissant la robustesse des systèmes en production.

30
RESEARCHarXiv CS.LG·il y a 17j

HealthCraft: A Reinforcement Learning Safety Environment for Emergency Medicine

L'article présente HealthCraft, un environnement public d'apprentissage par renforcement pour évaluer la sécurité des modèles de langage de pointe en médecine d'urgence. Il se concentre sur la sécurité au niveau de la trajectoire, l'utilisation abusive des outils et la pression clinique, construit sur un état du monde FHIR R4 et offrant 195 tâches pour une évaluation complète.

29
RESEARCHarXiv CS.CL·06/04/2026

SocioEval: A Template-Based Framework for Evaluating Socioeconomic Status Bias in Foundation Models

SocioEval é um framework baseado em templates para avaliar sistematicamente o viés de status socioeconômico em modelos de fundação, incluindo LLMs, uma área pouco explorada. A pesquisa avaliou 13 LLMs e revelou variações substanciais nas taxas de viés (0,42% a 33,75%), manifestando-se de forma diferente em vários temas.

29
RESEARCHarXiv CS.AI·il y a 4j

Stability vs. Manipulability: Evaluating Robustness Under Post-Decision Interaction in LLM Judges

Cette étude examine la stabilité et la manipulabilité des juges LLM dans les pipelines d'évaluation, révélant que bien qu'ils soient stables lors de réévaluations neutres, ils deviennent réversibles sous un défi post-décision ciblé. La recherche démontre que les jugements stables peuvent être annulés par une interaction motivée.

28
ARTICLEDEV.to AI·il y a 16j

Stop Engineering Prompts: How an Eval-First Harness Let Us Ship 25 Algorithm Versions Autonomously

Cet article décrit la création d'un système d'évaluation IA "eval-first" qui a permis de livrer de manière autonome 25 versions d'algorithmes en 13 jours. La méthodologie met l'accent sur des ensembles de tests immuables et des revues indépendantes pour garantir que les changements ne provoquent pas de régressions. L'auteur souligne que le système, plutôt que la simple ingénierie de prompts ou l'automatisation complète, a été la clé du rythme et de la sécurité du développement.

28
ARTICLEDEV.to AI·il y a 5j

Calibration set size for LLM-as-judge: when 50 traces is enough and when 200 is mandatory

La taille de l'ensemble de calibration étiqueté par des humains pour valider un LLM-as-judge dépend de l'équilibre des étiquettes. Cinquante traces sont suffisantes pour des critères binaires équilibrés, mais 200 ou plus sont nécessaires pour des catégories rares et coûteuses, comme les violations de sécurité, car la variance du kappa est dominée par les exemples de la classe minoritaire.

28
RESEARCHarXiv CS.CL·06/04/2026

Pragmatics Meets Culture: Culturally-adapted Artwork Description Generation and Evaluation

Este artigo apresenta a tarefa de geração de descrições de arte culturalmente adaptadas para combater o viés cultural em modelos de linguagem na geração de texto aberto. Ele propõe um framework de avaliação baseado em perguntas e respostas culturalmente fundamentadas, mostrando que um modelo de locutor pragmático melhora significativamente a compreensão do ouvinte.

28
RESEARCHarXiv CS.CL·16/04/2026

Bi-Predictability: A Real-Time Signal for Monitoring LLM Interaction Integrity

Cet article présente la bi-prédictibilité (P) et l'architecture Information Digital Twin (IDT) pour le suivi en temps réel de l'intégrité des interactions des LLM. Cela permet d'assurer une cohérence structurelle continue dans les flux de travail multi-tours, remédiant aux lacunes des méthodes d'évaluation actuelles qui ne détectent pas la dégradation progressive.

27
RESEARCHarXiv CS.CL·17/04/2026

MemGround: Long-Term Memory Evaluation Kit for Large Language Models in Gamified Scenarios

MemGround est un nouveau benchmark rigoureux pour la mémoire à long terme des LLM, conçu pour surmonter les limitations des évaluations statiques grâce à des scénarios interactifs gamifiés. Il propose un cadre hiérarchique à trois niveaux pour évaluer différents types de mémoire et une suite de métriques multidimensionnelles pour une quantification complète.

27