RESEARCH27
Breaking the Illusion: When Positive Meets Negative in Multimodal Decoding
arXiv CS.LG·11 de mayo de 2026
Se presenta un nuevo framework de inferencia sin entrenamiento, Decodificación Positiva y Negativa (PND), para abordar la alucinación de objetos en Modelos de Visión-Lenguaje (VLMs). PND refuerza la fidelidad visual mediante un mecanismo de contraste de doble vía, logrando un rendimiento de vanguardia sin necesidad de reentrenamiento.
Leer original ↗