← heapsort-ai

LVLM

2 items

RESEARCHarXiv CS.CL·4/15/2026

Benchmarking Deflection and Hallucination in Large Vision-Language Models

Diese Arbeit stellt VLM-DeflectionBench vor, einen neuen Benchmark für große Vision-Sprachmodelle (LVLMs), der sich auf Ablenkung und Halluzination konzentriert, wenn mit widersprüchlichen oder unzureichenden Beweisen umgegangen wird. Sie schlägt außerdem eine dynamische Datenkuratierungspipeline vor, um die Schwierigkeit des Benchmarks im Laufe der Zeit aufrechtzuerhalten, sowie ein feingranulares Evaluierungsprotokoll, um das Modellverhalten zu entflechten.

27