heapsort
RESEARCH28

Rethinking Reinforcement Fine-Tuning in LVLM: Convergence, Reward Decomposition, and Generalization

arXiv CS.LG·23 avril 2026

Cette recherche introduit le Processus de Décision de Markov Augmenté par Outils (TA-MDP) pour modéliser formellement la prise de décision agentique multimodale, comblant les lacunes théoriques dans le réglage fin par renforcement pour les Grands Modèles Vision-Langage (LVLM). Elle examine comment les récompenses vérifiables composites affectent la convergence de GRPO et pourquoi l'entraînement sur de petits ensembles de données se généralise à des domaines hors distribution pour les LVLM agentiques.

Lire l'original