heapsort
RESEARCH27

Benchmarking Deflection and Hallucination in Large Vision-Language Models

arXiv CS.CL·15 de abril de 2026

Este artículo propone VLM-DeflectionBench, un nuevo benchmark para Large Vision-Language Models (LVLMs) que aborda la deflexión y la alucinación en escenarios con evidencia conflictiva o insuficiente. También introduce un pipeline de curación de datos dinámico para preservar la dificultad del benchmark y un protocolo de evaluación detallado para analizar el comportamiento del modelo.

Leer original