RESEARCH27

Breaking the Illusion: When Positive Meets Negative in Multimodal Decoding

arXiv CS.LG·11 de maio de 2026

Um novo framework de inferência chamado Decodificação Positiva e Negativa (PND) foi introduzido para combater a alucinação de objetos em Modelos de Visão-Linguagem (VLMs). Ele amplifica evidências visuais e penaliza a geração dominada por priors linguísticos, resultando em desempenho de ponta sem retreinamento.

multimodal AI hallucination Vision-Language Models decoding AI

Ler original ↗