RESEARCH28
Rethinking Reinforcement Fine-Tuning in LVLM: Convergence, Reward Decomposition, and Generalization
arXiv CS.LG·23 avril 2026
Cette recherche introduit le Processus de Décision de Markov Augmenté par Outils (TA-MDP) pour modéliser formellement la prise de décision agentique multimodale, comblant les lacunes théoriques dans le réglage fin par renforcement pour les Grands Modèles Vision-Langage (LVLM). Elle examine comment les récompenses vérifiables composites affectent la convergence de GRPO et pourquoi l'entraînement sur de petits ensembles de données se généralise à des domaines hors distribution pour les LVLM agentiques.
Lire l'original ↗