← heapsort-ai

evaluation

53 items

RESEARCHarXiv CS.CL·06/04/2026

Overcoming the "Impracticality" of RAG: Proposing a Real-World Benchmark and Multi-Dimensional Diagnostic Framework

O artigo discute as limitações das avaliações atuais de sistemas RAG (Retrieval-Augmented Generation) em ambientes corporativos, que não diagnosticam sistematicamente os desafios complexos além da precisão final. Para suprir essa lacuna, a pesquisa propõe um framework de diagnóstico multi-dimensional e um benchmark para RAG empresarial, baseado em uma taxonomia de dificuldade de quatro eixos.

27
RESEARCHarXiv CS.CL·30/04/2026

Evaluation Revisited: A Taxonomy of Evaluation Concerns in Natural Language Processing

Motivé par les récentes avancées des LLM, cet article réalise une revue de la littérature sur l'historique des réflexions méthodologiques en PNL concernant les pratiques d'évaluation. Il développe une taxonomie synthétisant les positions récurrentes et les compromis, et propose une liste de contrôle structurée pour une conception et une interprétation plus délibérées de l'évaluation.

27
RESEARCHarXiv CS.AI·il y a 19j

AgentAtlas: Beyond Outcome Leaderboards for LLM Agents

AgentAtlas aborde la fragmentation des benchmarks utilisés pour évaluer les agents de grands modèles linguistiques (LLM), qui mettent actuellement l'accent sur différentes unités de mesure. Il introduit quatre composants, dont une taxonomie de décision de contrôle à six états, une taxonomie d'échec de trajectoire à neuf catégories et une méthodologie pour mesurer la capacité du modèle basée sur la supervision du prompt.

27
ARTICLE↑ trendingReddit r/LocalLLaMA·12/04/2026

About TurboQuant

Un utilisateur se demande si la technologie TurboQuant est vraiment révolutionnaire ou simplement une autre technologie médiocre surestimée par Google et Twitter. La question vise à déterminer la véritable pertinence et l'impact de TurboQuant.

25
ARTICLEDEV.to AI·21/04/2026

Common Limitations of Image Processing Metrics: A Picture Story

Ce contenu analyse les limitations courantes des métriques de traitement d'image, utilisant des exemples visuels pour illustrer comment les méthodes d'évaluation traditionnelles peuvent ne pas toujours s'aligner avec la perception humaine ou refléter précisément la performance de l'algorithme. Il souligne les défis de l'évaluation objective de la qualité et de l'efficacité du traitement d'image.

25
ARTICLEDEV.to AI·13/04/2026

My First RAG System Had No Evals. 40% of Answers Were Wrong.

L'auteur a constaté que les systèmes RAG en production manquent souvent d'évaluation adéquate, entraînant de faibles performances et 40% de réponses erronées. Il a découvert que la plupart des échecs des systèmes RAG proviennent de problèmes de récupération, et non de LLM, et souligne l'importance de mesurer le Recall@k pour y remédier.

23