RESEARCH28
Rethinking Reinforcement Fine-Tuning in LVLM: Convergence, Reward Decomposition, and Generalization
arXiv CS.LG·23. April 2026
Diese Forschung stellt den Tool-Augmented Markov Decision Process (TA-MDP) vor, um multimodale agentische Entscheidungsfindung formal zu modellieren und theoretische Lücken beim Reinforcement Fine-Tuning für Large Vision-Language Models (LVLMs) zu schließen. Sie untersucht, wie zusammengesetzte verifizierbare Belohnungen die GRPO-Konvergenz beeinflussen und warum das Training auf kleinen Datensätzen auf Out-of-Distribution-Domänen für agentische LVLMs übertragbar ist.
Original lesen ↗