RESEARCH27
Physics-R1: An Audited Olympiad Corpus and Recipe for Visual Physics Reasoning
arXiv CS.CL·15. Mai 2026
Diese Arbeit prüft multimodale Physik-Evaluierungspipelines und deckt Konstruktionspraktiken auf, die die Messung des Seh-Sprach-Argumentierens verzerren. Sie behandelt Trainings-Evaluierungs-Kontamination, Übersetzungsdrift und MCQ-Sättigung und veröffentlicht neue Artefakte zur Behebung dieser Mängel.
Original lesen ↗