RESEARCH27

Breaking the Illusion: When Positive Meets Negative in Multimodal Decoding

arXiv CS.LG·11. Mai 2026

Ein neues trainingsfreies Inferenz-Framework, Positive-and-Negative Decoding (PND), wird eingeführt, um Objekthalluzinationen in Vision-Language Models (VLMs) zu begegnen. PND erzwingt visuelle Treue durch einen Dual-Path-Kontrastmechanismus und erreicht Spitzenleistungen ohne erneutes Training.

multimodal AI hallucination Vision-Language Models decoding AI

Original lesen ↗