RESEARCH27
Physics-R1: An Audited Olympiad Corpus and Recipe for Visual Physics Reasoning
arXiv CS.CL·15 de mayo de 2026
Este estudio audita las pipelines de evaluación de física multimodal, revelando prácticas de construcción que distorsionan la medición del razonamiento visión-lenguaje. Aborda la contaminación entre entrenamiento y evaluación, la deriva de traducción y la saturación de preguntas de opción múltiple, liberando nuevos artefactos para cerrar estas brechas.
Leer original ↗