← heapsort-ai

LVLM

2 items

RESEARCHarXiv CS.CL·15/4/2026

Benchmarking Deflection and Hallucination in Large Vision-Language Models

Este artículo propone VLM-DeflectionBench, un nuevo benchmark para Large Vision-Language Models (LVLMs) que aborda la deflexión y la alucinación en escenarios con evidencia conflictiva o insuficiente. También introduce un pipeline de curación de datos dinámico para preservar la dificultad del benchmark y un protocolo de evaluación detallado para analizar el comportamiento del modelo.

27