RESEARCHarXiv CS.CL·vor 25T
Physics-R1: An Audited Olympiad Corpus and Recipe for Visual Physics Reasoning
Diese Arbeit prüft multimodale Physik-Evaluierungspipelines und deckt Konstruktionspraktiken auf, die die Messung des Seh-Sprach-Argumentierens verzerren. Sie behandelt Trainings-Evaluierungs-Kontamination, Übersetzungsdrift und MCQ-Sättigung und veröffentlicht neue Artefakte zur Behebung dieser Mängel.
27