heapsort
RESEARCH27

Physics-R1: An Audited Olympiad Corpus and Recipe for Visual Physics Reasoning

arXiv CS.CL·15 mai 2026

Ce travail audite les pipelines d'évaluation de la physique multimodale, identifiant des pratiques de construction qui faussent la mesure du raisonnement vision-langage. Il aborde la contamination train-éval, la dérive de traduction et la saturation des QCM, et publie de nouveaux artefacts pour combler ces lacunes.

Lire l'original