LLM evaluation

18 items

ARTICLEDEV.to AI·il y a 3h

More eval traces will not stabilize your kappa. Stratify the ones you have

Le contenu discute de l'instabilité de l'accord LLM en tant que juge (kappa de Cohen) qui variait fortement d'une semaine à l'autre sans changement de grille. L'augmentation de la taille de l'échantillon n'a pas stabilisé la métrique; la solution a été de stratifier les échantillons existants par classe de score et dimensions d'échec, démontrant que la composition, et non le volume, était le levier.

AI metrics sampling strategy Cohen's Kappa LLM evaluation

RESEARCHDEV.to AI·il y a 9h

Aligning with Human Judgement: The Role of Pairwise Preference in Large LanguageModel Evaluators

Ce contenu explore le rôle crucial de la préférence par paires dans l'évaluation des Grands Modèles de Langage (LLM). Il discute comment cette méthode peut aider à aligner plus efficacement les performances des LLM avec le jugement humain.

Human Alignment Pairwise Preference natural language processing AI Research

ARTICLE↑ trendingReddit r/MachineLearning·23/04/2026

OpenSimula — open implementation of Simula-style mechanism design for synthetic data (in AfterImage) [P]

OpenSimula est une implémentation Python expérimentale de la conception de mécanismes Simula, ajoutée à l'outil de jeu de données open-source AfterImage. Il vise à créer une diversité contrôlée de données synthétiques pour les configurations SFT/éval d'LLM, en utilisant des taxonomies basées sur des LLM et des boucles de critique.

synthetic data mechanism-design open-source-tool LLM evaluation

ARTICLE↑ trendingReddit r/LocalLLaMA·13/04/2026

Best Local LLMs - Apr 2026

L'article présente les meilleurs LLM locaux en avril 2026, soulignant des sorties comme Qwen3.5, Gemma4, GLM-5.1, Minimax-M2.7 et PrismML Bonsai. Il invite les utilisateurs à partager leurs expériences détaillées avec des modèles à poids ouverts pour faciliter l'évaluation.

AI models open-source AI Local LLMs generative AI

ARTICLEDEV.to AI·il y a 21j

Building an Evaluation Harness for Financial RAG: What I Learned About LLM-as-Judge Calibration

L'auteur a développé un système RAG pour les questions-réponses financières, en utilisant des documents de la SEC et le benchmark FinanceBench. Il a découvert un écart important entre les évaluations du LLM en tant que juge et les performances réelles, tirant des leçons sur le calibrage des LLM pour l'évaluation.

Financial AI Benchmarking GPT-4o-mini RAG system

RESEARCHarXiv CS.CL·07/04/2026

Are Arabic Benchmarks Reliable? QIMMA's Quality-First Approach to LLM Evaluation

QIMMA é uma nova plataforma de avaliação de LLMs em árabe que prioriza a qualidade, realizando validação sistemática de benchmarks. Ela resolve problemas de qualidade em benchmarks existentes através de revisão automatizada e humana, resultando em um conjunto de avaliação reprodutível e multi-tarefa com mais de 52 mil amostras.

Arabic LLM NLP Benchmarks Quality Assurance

ARTICLEDEV.to AI·il y a 5j

How do you know your AI receptionist is actually following its instructions?

Cet article traite du problème des IA vocales, notamment des grands modèles linguistiques, qui peuvent inventer des informations lors des interactions avec le service client. Il propose l'utilisation d'« evals » (évaluations) pour tester et garantir que les agents d'IA suivent leurs instructions, évitant ainsi les informations incorrectes et l'insatisfaction des clients.

AI hallucinations customer service AI AI reliability LLM evaluation

ARTICLEDEV.to AI·27/04/2026

Testing AI Systems in Production: From LLM Evals to Agent Reliability

L'article critique les méthodes actuelles de test des LLM en production, où des déploiements « fluides » masquent souvent des hallucinations subtiles entraînant des pertes financières ou de données dues à des évaluations inadéquates basées sur la vérité. Il souligne la nécessité de pipelines d'évaluation de récupération robustes, de meilleures données et de stratégies spécifiques pour tester la fiabilité des agents IA afin d'éviter les boucles de raisonnement ou les actions destructrices.

AI reliability AI testing AI agents LLM evaluation

ARTICLEDEV.to AI·14/04/2026

AI Search Showdown: Perplexity vs SearchGPT vs Claude 3.5 Sonnet (2026)

Ce contenu présente une analyse comparative des outils de recherche IA : Perplexity AI, OpenAI SearchGPT et Claude 3.5 Sonnet. Il détaille une évaluation pratique utilisant trois prompts complexes distincts pour mesurer leurs performances en termes de précision, rapidité, citations et capacités multimodales.

AI comparison Perplexity AI Claude 3.5 Sonnet OpenAI SearchGPT

DOCDEV.to AI·il y a 22j

LLM Evaluation for Indie Hackers: Build a £0.20/Run System That Catches Real Bugs

Ce contenu explique aux développeurs indépendants comment créer un système d'évaluation LLM à faible coût (0,20 £/exécution) pour détecter les véritables bogues en production. Le système utilise un ensemble de données de référence, un LLM comme juge pour noter les sorties et une porte CI pour bloquer les fusions.

indie hackers CI/CD Software Development Testing

ARTICLEDEV.to AI·il y a 22j

LLM Evaluation for Indie Hackers: Stop Paying Braintrust and Build This Instead

L'article propose un système d'évaluation LLM basé sur des rubriques et économique pour les développeurs indépendants, conçu pour s'exécuter en CI et éviter les problèmes tels que les données hallucinées en production. Il offre une alternative aux solutions d'entreprise coûteuses, en définissant la qualité par des attributs concrets et des ensembles de données "golden".

indie hackers CI/CD Testing cost-effective solutions

CASEDEV.to AI·19/04/2026

A Truth Filter for AI-Generated Ideas: An Experiment with Property-Based Testing

L'auteur a utilisé des tests basés sur les propriétés pour vérifier la véracité des affirmations contenues dans un article généré par l'IA sur la construction d'un « deuxième cerveau ». Bien que la plupart des affirmations aient tenu, un quantificateur universel a été falsifié, soulignant l'efficacité de la méthode à révéler des exigences structurelles subtiles.

AI Verification AI Content Generation property-based testing LLM evaluation

RESEARCHarXiv CS.CL·05/05/2026

Compared to What? Baselines and Metrics for Counterfactual Prompting

Ce travail soutient que les effets observés du "prompting contrefactuel" dans les LLM ne peuvent être attribués à un facteur ciblé sans tenir compte des modifications de texte préservant le sens qui établissent la sensibilité générale du modèle. La recherche montre que les taux d'inversion de prédiction lors du changement chirurgical du sexe du patient sont statistiquement indiscernables des taux induits par de simples paraphrases, suggérant qu'une sensibilité particulière au sexe du patient ne peut être conclue.

counterfactual prompting model robustness AI bias natural language processing

RESEARCHarXiv CS.CL·09/04/2026

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Este artigo enquadra a alucinação em grandes modelos de linguagem como um erro de classificação e propõe uma intervenção composta por recusa baseada em instruções e um gate de abstenção estrutural. O gate utiliza um score de déficit de suporte de sinais como auto-consistência e cobertura de citação, mas a avaliação controlada mostrou que nenhum mecanismo isolado foi suficiente para mitigar totalmente o problema.

hallucination Abstention Architectures large language models AI safety

RESEARCHarXiv CS.CL·il y a 18j

RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

RankJudge est présenté comme un générateur de benchmark pour évaluer les LLM-as-a-judge dans les conversations multi-tours, abordant la complexité que les benchmarks existants axés sur les questions-réponses ne parviennent pas à saisir. Il crée des paires de conversations avec des défauts injectés, permettant un étiquetage sans ambiguïté et une isolation précise pour les développeurs de modèles s'appuyant sur l'auto-évaluation.

Multi-turn conversations LLM-as-a-judge Benchmarking generative AI

RESEARCHarXiv CS.CL·il y a 12j

Modeling Community Attitude through Reaction Tone: A Human-AI Collaborative Framework for Evaluating LLM Alignment with Linguistic Behaviors in Online Communities

Cette recherche présente CARE (Community-Aware Reaction Evaluation), un cadre conçu pour évaluer la capacité des grands modèles linguistiques (LLM) à simuler le discours communautaire par rapport aux réponses humaines authentiques aux actualités. Grâce à la collaboration humain-IA, l'étude identifie un "fossé de réalisme", montrant que les incitations explicites de la communauté n'améliorent pas intrinsèquement la fidélité des simulations de LLM.

linguistic behavior AI alignment computational social science LLM evaluation

RESEARCHarXiv CS.CL·il y a 28j

Sanity Checks for Long-Form Hallucination Detection

Cet article de recherche introduit une méthodologie d'invariance contrôlée pour la détection des hallucinations dans les grands modèles de langage. En utilisant des tests oracle comme extsc{Force} et extsc{Remove}, il examine si les méthodes évaluent le raisonnement ou de simples corrélats superficiels de la réponse finale.

hallucination detection Chain-of-Thought large language models LLM evaluation

ARTICLEDEV.to AI·14/04/2026

I added a local eval loop to my personal AI assistant — here's what 800 scored interactions taught me

L'auteur a intégré une boucle d'évaluation locale utilisant un modèle Ollama dans son assistant IA personnel pour noter les interactions sur l'exactitude et la pertinence. Après 800 interactions, il a découvert que les réponses plus courtes et directes obtenaient systématiquement de meilleurs scores.

AI assistant self-hosted AI Ollama DSPy