RESEARCH27
Benchmarking Deflection and Hallucination in Large Vision-Language Models
arXiv CS.CL·15 de abril de 2026
Este artículo propone VLM-DeflectionBench, un nuevo benchmark para Large Vision-Language Models (LVLMs) que aborda la deflexión y la alucinación en escenarios con evidencia conflictiva o insuficiente. También introduce un pipeline de curación de datos dinámico para preservar la dificultad del benchmark y un protocolo de evaluación detallado para analizar el comportamiento del modelo.
Leer original ↗