heapsort
RESEARCH27

Physics-R1: An Audited Olympiad Corpus and Recipe for Visual Physics Reasoning

arXiv CS.CL·15. Mai 2026

Diese Arbeit prüft multimodale Physik-Evaluierungspipelines und deckt Konstruktionspraktiken auf, die die Messung des Seh-Sprach-Argumentierens verzerren. Sie behandelt Trainings-Evaluierungs-Kontamination, Übersetzungsdrift und MCQ-Sättigung und veröffentlicht neue Artefakte zur Behebung dieser Mängel.

Original lesen