RESEARCH46
Improving Multimodal Reasoning via Worst Dimension Optimization
arXiv CS.AI·9 de junho de 2026
O raciocínio multimodal exige integridade em diversas restrições, como fundamentação visual e consistência lógica. Os Modelos de Recompensa de Processo atuais frequentemente ocultam falhas em dimensões individuais ao ponderar os fatores igualmente, comprometendo o processo de raciocínio geral.
Ler original ↗