RESEARCH27

Breaking the Illusion: When Positive Meets Negative in Multimodal Decoding

arXiv CS.LG·11 de mayo de 2026

Se presenta un nuevo framework de inferencia sin entrenamiento, Decodificación Positiva y Negativa (PND), para abordar la alucinación de objetos en Modelos de Visión-Lenguaje (VLMs). PND refuerza la fidelidad visual mediante un mecanismo de contraste de doble vía, logrando un rendimiento de vanguardia sin necesidad de reentrenamiento.

multimodal AI hallucination Vision-Language Models decoding AI

Leer original ↗