RESEARCH28
Rethinking Reinforcement Fine-Tuning in LVLM: Convergence, Reward Decomposition, and Generalization
arXiv CS.LG·23 de abril de 2026
Esta pesquisa introduz o Processo de Decisão de Markov Aumentado por Ferramentas (TA-MDP) para modelar formalmente a tomada de decisão agêntica multimodal, abordando lacunas teóricas no ajuste fino por reforço para Grandes Modelos Visão-Linguagem (LVLMs). O estudo investiga como as recompensas verificáveis afetam a convergência do GRPO e a generalização de LVLMs agênticos para domínios fora de distribuição.
Ler original ↗