Improving Multimodal Reasoning via Worst Dimension Optimization
Multimodales Denken erfordert die Integrität über verschiedene Einschränkungen hinweg, wie visuelle Erdung und logische Konsistenz. Aktuelle Prozess-Belohnungsmodelle verdecken oft individuelle Dimensionsfehler, indem sie Faktoren gleich gewichten, was den gesamten Denkprozess beeinträchtigt.