Improving Multimodal Reasoning via Worst Dimension Optimization
El razonamiento multimodal requiere mantener la integridad en diversas restricciones, como la fundamentación visual y la coherencia lógica. Los Modelos de Recompensa de Proceso actuales a menudo ocultan fallas en dimensiones individuales al ponderar los factores por igual, comprometiendo el proceso de razonamiento general.