RESEARCH28

Rethinking Reinforcement Fine-Tuning in LVLM: Convergence, Reward Decomposition, and Generalization

arXiv CS.LG·23. April 2026

Diese Forschung stellt den Tool-Augmented Markov Decision Process (TA-MDP) vor, um multimodale agentische Entscheidungsfindung formal zu modellieren und theoretische Lücken beim Reinforcement Fine-Tuning für Large Vision-Language Models (LVLMs) zu schließen. Sie untersucht, wie zusammengesetzte verifizierbare Belohnungen die GRPO-Konvergenz beeinflussen und warum das Training auf kleinen Datensätzen auf Out-of-Distribution-Domänen für agentische LVLMs übertragbar ist.

Theoretical AI reinforcement learning vision models large language models AI agents

Original lesen ↗