Breaking the Illusion: When Positive Meets Negative in Multimodal Decoding
Ein neues trainingsfreies Inferenz-Framework, Positive-and-Negative Decoding (PND), wird eingeführt, um Objekthalluzinationen in Vision-Language Models (VLMs) zu begegnen. PND erzwingt visuelle Treue durch einen Dual-Path-Kontrastmechanismus und erreicht Spitzenleistungen ohne erneutes Training.
