RESEARCHarXiv CS.CL·15/4/2026
Benchmarking Deflection and Hallucination in Large Vision-Language Models
Este artículo propone VLM-DeflectionBench, un nuevo benchmark para Large Vision-Language Models (LVLMs) que aborda la deflexión y la alucinación en escenarios con evidencia conflictiva o insuficiente. También introduce un pipeline de curación de datos dinámico para preservar la dificultad del benchmark y un protocolo de evaluación detallado para analizar el comportamiento del modelo.
27