RESEARCH54
Improving Multimodal Reasoning via Worst Dimension Optimization
arXiv CS.AI·9 de junio de 2026
El razonamiento multimodal requiere mantener la integridad en diversas restricciones, como la fundamentación visual y la coherencia lógica. Los Modelos de Recompensa de Proceso actuales a menudo ocultan fallas en dimensiones individuales al ponderar los factores por igual, comprometiendo el proceso de razonamiento general.
Leer original ↗