heapsort
RESEARCH27

Physics-R1: An Audited Olympiad Corpus and Recipe for Visual Physics Reasoning

arXiv CS.CL·15 de mayo de 2026

Este estudio audita las pipelines de evaluación de física multimodal, revelando prácticas de construcción que distorsionan la medición del razonamiento visión-lenguaje. Aborda la contaminación entre entrenamiento y evaluación, la deriva de traducción y la saturación de preguntas de opción múltiple, liberando nuevos artefactos para cerrar estas brechas.

Leer original