heapsort
RESEARCH28

Rethinking Reinforcement Fine-Tuning in LVLM: Convergence, Reward Decomposition, and Generalization

arXiv CS.LG·23 de abril de 2026

Esta pesquisa introduz o Processo de Decisão de Markov Aumentado por Ferramentas (TA-MDP) para modelar formalmente a tomada de decisão agêntica multimodal, abordando lacunas teóricas no ajuste fino por reforço para Grandes Modelos Visão-Linguagem (LVLMs). O estudo investiga como as recompensas verificáveis afetam a convergência do GRPO e a generalização de LVLMs agênticos para domínios fora de distribuição.

Ler original