← heapsort-ai

hallucination

28 items

RESEARCH↑ trendingReddit r/MachineLearning·24/04/2026

New project about llm hallucination [P]

Ce contenu présente un nouveau projet annexe et son dépôt GitHub, axé sur l'atténuation des hallucinations des LLM via une méthode innovante d'échantillonnage contrastif et d'entraînement sélectif. L'idée principale considère l'hallucination comme un problème de préférence, utilisant des échantillons négatifs auto-générés et un apprentissage basé sur la divergence et les portes pour promouvoir les bonnes réponses et supprimer les mauvaises.

New project about llm hallucination [P]
45
ARTICLE↑ trendingReddit r/LocalLLaMA·18/04/2026

Are you guys actually using local tool calling or is it a collective prank?

Un utilisateur exprime sa frustration face à la fonctionnalité d'appel d'outils locaux des LLM comme Qwen et Gemma, rencontrant des hallucinations et des boucles d'exécution en essayant de créer des fichiers. Il se demande si la difficulté est une limitation des petits modèles ou une erreur de configuration avec Open WebUI et LM Studio.

33
RESEARCHarXiv CS.CL·il y a 13j

Why LLMs Hallucinate on Structured Knowledge: A Mechanistic Analysis of Reasoning over Linearized Representations

Cette étude examine pourquoi les LLM hallucinent lors du raisonnement sur des connaissances structurées linéarisées. Elle révèle que les hallucinations proviennent de dynamiques internes systématiques, telles que l'attention se concentrant sur des indices raccourcis et l'incapacité des couches feed-forward à ancrer les connaissances fournies.

29
RESEARCHarXiv CS.LG·20/04/2026

Hallucination as Trajectory Commitment: Causal Evidence for Asymmetric Attractor Dynamics in Transformer Generation

Cet article présente des preuves causales que l'hallucination dans les modèles de langage autorégressifs est un engagement précoce de trajectoire régi par des dynamiques d'attracteur asymétriques. La recherche indique que les trajectoires factuelles et hallucinées divergent dès le premier jeton, et que la correction d'une trajectoire hallucinatoire nécessite une intervention soutenue, tandis que la corruption est plus facile.

27
RESEARCHarXiv CS.CL·07/05/2026

MedFabric and EtHER: A Data-Centric Framework for Word-Level Fabrication Generation and Detection in Medical LLMs

Cet article présente MedFabric, un pipeline centré sur les données pour générer des fabrications réalistes au niveau du mot dans les LLM médicaux, comblant les lacunes des ensembles de données existants. Il introduit également ETHER, un détecteur modulaire de fabrications au niveau du mot intégrant diverses techniques pour améliorer l'évaluation factuelle.

27
ARTICLEDEV.to AI·il y a 27j

Building a production-ready RAG pipeline

Les Grands Modèles Linguistiques (LLMs) ont souvent des hallucinations lorsqu'ils manquent de contexte actuel ou de connaissances spécifiques. La Génération Augmentée par Récupération (RAG) corrige cela en fournissant aux LLMs des données externes pertinentes, leur permettant de générer des réponses précises; l'auteur a construit Keystone pour appliquer RAG à l'activité des dépôts GitHub.

27
ARTICLEDEV.to AI·09/05/2026

Someone Called My AI System a Tool. Then They Showed Me Theirs.

L'auteur raconte une rencontre en conférence où son système d'IA sophistiqué, doté de portes anti-fabrication et d'une mémoire persistante, a été qualifié d'« outil ». Cela est mis en contraste avec le cadre d'agent plus simple d'un autre participant, suscitant une discussion sur le manque crucial de garde-fous contre l'hallucination de l'IA dans ce dernier.

27
RESEARCHarXiv CS.CL·15/04/2026

Benchmarking Deflection and Hallucination in Large Vision-Language Models

Cet article propose VLM-DeflectionBench, un nouveau benchmark pour les Large Vision-Language Models (LVLM) qui s'attaque à la déviation et à l'hallucination face à des preuves conflictuelles ou insuffisantes. Il introduit également un pipeline dynamique de curation de données pour maintenir la pertinence du benchmark et un protocole d'évaluation détaillé.

27
RESEARCHarXiv CS.CL·15/04/2026

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration

Cette recherche introduit CURE, un cadre novateur visant à améliorer la factualité de la génération de texte long par les LLM, en leur apprenant à raisonner sur l'incertitude au niveau de chaque affirmation. Il vise à dépasser la limite des modèles qui énoncent souvent des affirmations incorrectes avec confiance, en se concentrant sur une calibration granulaire de l'incertitude.

27
RESEARCHarXiv CS.CL·09/04/2026

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Este artigo enquadra a alucinação em grandes modelos de linguagem como um erro de classificação e propõe uma intervenção composta por recusa baseada em instruções e um gate de abstenção estrutural. O gate utiliza um score de déficit de suporte de sinais como auto-consistência e cobertura de citação, mas a avaliação controlada mostrou que nenhum mecanismo isolado foi suficiente para mitigar totalmente o problema.

27