hallucination

28 items

ARTICLEDEV.to AI·23/04/2026

Your AI Agent Passed Staging. Then It Hallucinated a Migration in Production.

Cet article explique pourquoi les tests traditionnels sont insuffisants pour les agents d'IA en raison de leur nature stochastique, entraînant des problèmes de production comme la corruption de données. Le problème essentiel est de vérifier ce que les agents *font*, mais pas ce qu'ils *sont autorisés à faire*.

hallucination security AI safety AI testing

RESEARCHarXiv CS.CL·il y a 19h

BEACON: Behavioral Entropy Aggregation for Cross-Model Hallucination Detection in Large Language Models

L'article présente BEACON, un cadre de détection d'hallucinations en boîte noire pour les LLM qui analyse uniquement les sorties du modèle. Il extrait un vecteur de caractéristiques de 31 dimensions, et un classifieur atteint 0,8123 AUROC, surpassant les méthodes existantes.

LLMs hallucination machine learning detection

RESEARCH↑ trendingReddit r/MachineLearning·24/04/2026

New project about llm hallucination [P]

Ce contenu présente un nouveau projet annexe et son dépôt GitHub, axé sur l'atténuation des hallucinations des LLM via une méthode innovante d'échantillonnage contrastif et d'entraînement sélectif. L'idée principale considère l'hallucination comme un problème de préférence, utilisant des échantillons négatifs auto-générés et un apprentissage basé sur la divergence et les portes pour promouvoir les bonnes réponses et supprimer les mauvaises.

hallucination model training natural language processing AI safety

ARTICLE↑ trendingReddit r/LocalLLaMA·18/04/2026

Are you guys actually using local tool calling or is it a collective prank?

Un utilisateur exprime sa frustration face à la fonctionnalité d'appel d'outils locaux des LLM comme Qwen et Gemma, rencontrant des hallucinations et des boucles d'exécution en essayant de créer des fichiers. Il se demande si la difficulté est une limitation des petits modèles ou une erreur de configuration avec Open WebUI et LM Studio.

LLMs hallucination AI limitations open-source AI

ARTICLEDEV.to AI·il y a 4j

The Limits of AI Models: What LLMs Still Can't Do (And Why)

Cet article explore les limites inhérentes des modèles d'IA, en particulier les LLM, soulignant l'importance de comprendre ces frontières pour le développement de produits robustes. Il détaille l'hallucination comme une limitation clé, expliquant que les LLM génèrent du texte plausible, pas nécessairement vrai, sans vérificateur de faits interne.

AI models LLMs hallucination AI limitations

RESEARCHarXiv CS.CL·23/04/2026

Do Hallucination Neurons Generalize? Evidence from Cross-Domain Transfer in LLMs

Une nouvelle recherche indique que les « neurones d'hallucination » (H-neurons) prédisant les hallucinations des LLM ne se généralisent pas entre différents domaines de connaissance. Cela suggère que l'hallucination pourrait ne pas être un mécanisme unique avec une signature neurale universelle, mais plutôt dépendante du contexte.

LLMs hallucination AI safety AI Research

RESEARCHarXiv CS.CL·il y a 13j

Why LLMs Hallucinate on Structured Knowledge: A Mechanistic Analysis of Reasoning over Linearized Representations

Cette étude examine pourquoi les LLM hallucinent lors du raisonnement sur des connaissances structurées linéarisées. Elle révèle que les hallucinations proviennent de dynamiques internes systématiques, telles que l'attention se concentrant sur des indices raccourcis et l'incapacité des couches feed-forward à ancrer les connaissances fournies.

neural networks hallucination Knowledge Representation AI Reasoning

ARTICLEDEV.to AI·14/04/2026

Opus 4.6 Hallucination Rate Hit 33% — Here's What Changed and How to Fix It

Les développeurs ont signalé un déclin notable de la qualité de codage de Claude Opus 4.6, des benchmarks indépendants confirmant que son taux d'hallucination a presque doublé pour atteindre 33%. L'article couvre les preuves, la cause première et les paramètres pour résoudre le problème de fabrication d'informations du modèle.

Claude Opus 4.6 hallucination AI quality Benchmarks

RESEARCHDEV.to AI·18/04/2026

AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs HallucinationEvaluation

AMBER introduit un nouveau benchmark multidimensionnel, indépendant des LLM, conçu pour évaluer rigoureusement l'hallucination dans les Modèles de Langage Grande Multimodaux (MLLMs). Cette recherche vise à fournir un outil complet pour analyser la fiabilité et la précision des sorties des MLLMs.

hallucination MLLMs Benchmarking AI evaluation

RESEARCHarXiv CS.LG·20/04/2026

Hallucination as Trajectory Commitment: Causal Evidence for Asymmetric Attractor Dynamics in Transformer Generation

Cet article présente des preuves causales que l'hallucination dans les modèles de langage autorégressifs est un engagement précoce de trajectoire régi par des dynamiques d'attracteur asymétriques. La recherche indique que les trajectoires factuelles et hallucinées divergent dès le premier jeton, et que la correction d'une trajectoire hallucinatoire nécessite une intervention soutenue, tandis que la corruption est plus facile.

Transformer Architecture LLMs hallucination model dynamics

RESEARCHarXiv CS.CL·07/05/2026

MedFabric and EtHER: A Data-Centric Framework for Word-Level Fabrication Generation and Detection in Medical LLMs

Cet article présente MedFabric, un pipeline centré sur les données pour générer des fabrications réalistes au niveau du mot dans les LLM médicaux, comblant les lacunes des ensembles de données existants. Il introduit également ETHER, un détecteur modulaire de fabrications au niveau du mot intégrant diverses techniques pour améliorer l'évaluation factuelle.

hallucination data-centric AI Healthcare AI safety

DOCDEV.to AI·01/05/2026

Stop Your RAG Pipeline From Hallucinating: A 15-Line Fix published

Cet article propose une solution de 15 lignes pour lutter contre les hallucinations dans les pipelines RAG, même lorsque les réponses semblent fondées sur des documents récupérés. Il détaille un modèle « récupérer → générer → vérifier » pour détecter les erreurs avant que l'agent IA n'agisse.

hallucination AI quality RAG Verification

ARTICLEDEV.to AI·27/04/2026

I Built a Claude Code Plugin That Blocks Hallucinated Package Versions

L'article décrit comment l'agent de codage Claude Code peut "halluciner" des versions de paquets, créant des risques pour la chaîne d'approvisionnement et des failles de sécurité. L'auteur a développé "Version Sentinel", un plugin qui bloque les modifications de dépendances tant que les versions n'ont pas été vérifiées comme réelles et actuelles.

hallucination Claude security AI tools

DOCDEV.to AI·il y a 7j

How I Built an AI Document Pipeline That almost Never Hallucinates

L'auteur a mis au point un pipeline de documents IA pour prévenir les hallucinations, en s'éloignant de la génération de texte libre. Il utilise des schémas JSON stricts, des règles de validation spécifiques au domaine et une approbation humaine pour intercepter les erreurs avant qu'elles n'atteignent les clients.

LLMs hallucination Data pipeline AI

ARTICLEDEV.to AI·il y a 27j

Building a production-ready RAG pipeline

Les Grands Modèles Linguistiques (LLMs) ont souvent des hallucinations lorsqu'ils manquent de contexte actuel ou de connaissances spécifiques. La Génération Augmentée par Récupération (RAG) corrige cela en fournissant aux LLMs des données externes pertinentes, leur permettant de générer des réponses précises; l'auteur a construit Keystone pour appliquer RAG à l'activité des dépôts GitHub.

LLMs hallucination Context Retrieval RAG

NEWSThe Verge AI·05/05/2026

OpenAI claims ChatGPT’s new default model hallucinates way less

OpenAI affirme que son nouveau modèle par défaut pour ChatGPT, GPT-5.5 Instant, réduit considérablement les "hallucinations". La société déclare que le nouveau modèle présente des améliorations substantielles en matière de véracité, avec 52,5 % moins de déclarations hallucinées sur des invites à enjeux élevés.

AI models OpenAI hallucination ChatGPT

ARTICLEDEV.to AI·09/05/2026

Someone Called My AI System a Tool. Then They Showed Me Theirs.

L'auteur raconte une rencontre en conférence où son système d'IA sophistiqué, doté de portes anti-fabrication et d'une mémoire persistante, a été qualifié d'« outil ». Cela est mis en contraste avec le cadre d'agent plus simple d'un autre participant, suscitant une discussion sur le manque crucial de garde-fous contre l'hallucination de l'IA dans ce dernier.

AI architecture hallucination agent framework AI Systems

RESEARCHarXiv CS.CL·15/04/2026

Benchmarking Deflection and Hallucination in Large Vision-Language Models

Cet article propose VLM-DeflectionBench, un nouveau benchmark pour les Large Vision-Language Models (LVLM) qui s'attaque à la déviation et à l'hallucination face à des preuves conflictuelles ou insuffisantes. Il introduit également un pipeline dynamique de curation de données pour maintenir la pertinence du benchmark et un protocole d'évaluation détaillé.

Retrieval Augmented Generation hallucination Benchmarking LVLM

RESEARCHarXiv CS.CL·15/04/2026

Think Through Uncertainty: Improving Long-Form Generation Factuality via Reasoning Calibration

Cette recherche introduit CURE, un cadre novateur visant à améliorer la factualité de la génération de texte long par les LLM, en leur apprenant à raisonner sur l'incertitude au niveau de chaque affirmation. Il vise à dépasser la limite des modèles qui énoncent souvent des affirmations incorrectes avec confiance, en se concentrant sur une calibration granulaire de l'incertitude.

LLMs hallucination uncertainty calibration Reasoning

RESEARCHarXiv CS.CL·09/04/2026

Hallucination as output-boundary misclassification: a composite abstention architecture for language models

Este artigo enquadra a alucinação em grandes modelos de linguagem como um erro de classificação e propõe uma intervenção composta por recusa baseada em instruções e um gate de abstenção estrutural. O gate utiliza um score de déficit de suporte de sinais como auto-consistência e cobertura de citação, mas a avaliação controlada mostrou que nenhum mecanismo isolado foi suficiente para mitigar totalmente o problema.

hallucination Abstention Architectures large language models AI safety