RESEARCH27
Physics-R1: An Audited Olympiad Corpus and Recipe for Visual Physics Reasoning
arXiv CS.CL·15 mai 2026
Ce travail audite les pipelines d'évaluation de la physique multimodale, identifiant des pratiques de construction qui faussent la mesure du raisonnement vision-langage. Il aborde la contamination train-éval, la dérive de traduction et la saturation des QCM, et publie de nouveaux artefacts pour combler ces lacunes.
Lire l'original ↗