← heapsort-ai

LLM evaluation

18 items

ARTICLEDEV.to AI·il y a 3h

More eval traces will not stabilize your kappa. Stratify the ones you have

Le contenu discute de l'instabilité de l'accord LLM en tant que juge (kappa de Cohen) qui variait fortement d'une semaine à l'autre sans changement de grille. L'augmentation de la taille de l'échantillon n'a pas stabilisé la métrique; la solution a été de stratifier les échantillons existants par classe de score et dimensions d'échec, démontrant que la composition, et non le volume, était le levier.

62
ARTICLE↑ trendingReddit r/MachineLearning·23/04/2026

OpenSimula — open implementation of Simula-style mechanism design for synthetic data (in AfterImage) [P]

OpenSimula est une implémentation Python expérimentale de la conception de mécanismes Simula, ajoutée à l'outil de jeu de données open-source AfterImage. Il vise à créer une diversité contrôlée de données synthétiques pour les configurations SFT/éval d'LLM, en utilisant des taxonomies basées sur des LLM et des boucles de critique.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·13/04/2026

Best Local LLMs - Apr 2026

L'article présente les meilleurs LLM locaux en avril 2026, soulignant des sorties comme Qwen3.5, Gemma4, GLM-5.1, Minimax-M2.7 et PrismML Bonsai. Il invite les utilisateurs à partager leurs expériences détaillées avec des modèles à poids ouverts pour faciliter l'évaluation.

42
ARTICLEDEV.to AI·il y a 5j

How do you know your AI receptionist is actually following its instructions?

Cet article traite du problème des IA vocales, notamment des grands modèles linguistiques, qui peuvent inventer des informations lors des interactions avec le service client. Il propose l'utilisation d'« evals » (évaluations) pour tester et garantir que les agents d'IA suivent leurs instructions, évitant ainsi les informations incorrectes et l'insatisfaction des clients.

28
ARTICLEDEV.to AI·27/04/2026

Testing AI Systems in Production: From LLM Evals to Agent Reliability

L'article critique les méthodes actuelles de test des LLM en production, où des déploiements « fluides » masquent souvent des hallucinations subtiles entraînant des pertes financières ou de données dues à des évaluations inadéquates basées sur la vérité. Il souligne la nécessité de pipelines d'évaluation de récupération robustes, de meilleures données et de stratégies spécifiques pour tester la fiabilité des agents IA afin d'éviter les boucles de raisonnement ou les actions destructrices.

27
ARTICLEDEV.to AI·il y a 22j

LLM Evaluation for Indie Hackers: Stop Paying Braintrust and Build This Instead

L'article propose un système d'évaluation LLM basé sur des rubriques et économique pour les développeurs indépendants, conçu pour s'exécuter en CI et éviter les problèmes tels que les données hallucinées en production. Il offre une alternative aux solutions d'entreprise coûteuses, en définissant la qualité par des attributs concrets et des ensembles de données "golden".

27
CASEDEV.to AI·19/04/2026

A Truth Filter for AI-Generated Ideas: An Experiment with Property-Based Testing

L'auteur a utilisé des tests basés sur les propriétés pour vérifier la véracité des affirmations contenues dans un article généré par l'IA sur la construction d'un « deuxième cerveau ». Bien que la plupart des affirmations aient tenu, un quantificateur universel a été falsifié, soulignant l'efficacité de la méthode à révéler des exigences structurelles subtiles.

27
RESEARCHarXiv CS.CL·05/05/2026

Compared to What? Baselines and Metrics for Counterfactual Prompting

Ce travail soutient que les effets observés du "prompting contrefactuel" dans les LLM ne peuvent être attribués à un facteur ciblé sans tenir compte des modifications de texte préservant le sens qui établissent la sensibilité générale du modèle. La recherche montre que les taux d'inversion de prédiction lors du changement chirurgical du sexe du patient sont statistiquement indiscernables des taux induits par de simples paraphrases, suggérant qu'une sensibilité particulière au sexe du patient ne peut être conclue.

27
RESEARCHarXiv CS.CL·09/04/2026

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Este artigo enquadra a alucinação em grandes modelos de linguagem como um erro de classificação e propõe uma intervenção composta por recusa baseada em instruções e um gate de abstenção estrutural. O gate utiliza um score de déficit de suporte de sinais como auto-consistência e cobertura de citação, mas a avaliação controlada mostrou que nenhum mecanismo isolado foi suficiente para mitigar totalmente o problema.

27
RESEARCHarXiv CS.CL·il y a 18j

RankJudge: A Multi-Turn LLM-as-a-Judge Synthetic Benchmark Generator

RankJudge est présenté comme un générateur de benchmark pour évaluer les LLM-as-a-judge dans les conversations multi-tours, abordant la complexité que les benchmarks existants axés sur les questions-réponses ne parviennent pas à saisir. Il crée des paires de conversations avec des défauts injectés, permettant un étiquetage sans ambiguïté et une isolation précise pour les développeurs de modèles s'appuyant sur l'auto-évaluation.

27
RESEARCHarXiv CS.CL·il y a 12j

Modeling Community Attitude through Reaction Tone: A Human-AI Collaborative Framework for Evaluating LLM Alignment with Linguistic Behaviors in Online Communities

Cette recherche présente CARE (Community-Aware Reaction Evaluation), un cadre conçu pour évaluer la capacité des grands modèles linguistiques (LLM) à simuler le discours communautaire par rapport aux réponses humaines authentiques aux actualités. Grâce à la collaboration humain-IA, l'étude identifie un "fossé de réalisme", montrant que les incitations explicites de la communauté n'améliorent pas intrinsèquement la fidélité des simulations de LLM.

27