← heapsort-ai

Corpus development

1 items

RESEARCHarXiv CS.CL·hace 26d

Physics-R1: An Audited Olympiad Corpus and Recipe for Visual Physics Reasoning

Este estudio audita las pipelines de evaluación de física multimodal, revelando prácticas de construcción que distorsionan la medición del razonamiento visión-lenguaje. Aborda la contaminación entre entrenamiento y evaluación, la deriva de traducción y la saturación de preguntas de opción múltiple, liberando nuevos artefactos para cerrar estas brechas.

27