heapsort
RESEARCH27

Breaking the Illusion: When Positive Meets Negative in Multimodal Decoding

arXiv CS.LG·11 de mayo de 2026

Se presenta un nuevo framework de inferencia sin entrenamiento, Decodificación Positiva y Negativa (PND), para abordar la alucinación de objetos en Modelos de Visión-Lenguaje (VLMs). PND refuerza la fidelidad visual mediante un mecanismo de contraste de doble vía, logrando un rendimiento de vanguardia sin necesidad de reentrenamiento.

Leer original