Breaking the Illusion: When Positive Meets Negative in Multimodal Decoding
Se presenta un nuevo framework de inferencia sin entrenamiento, Decodificación Positiva y Negativa (PND), para abordar la alucinación de objetos en Modelos de Visión-Lenguaje (VLMs). PND refuerza la fidelidad visual mediante un mecanismo de contraste de doble vía, logrando un rendimiento de vanguardia sin necesidad de reentrenamiento.
