heapsort
RESEARCH28

Rethinking Reinforcement Fine-Tuning in LVLM: Convergence, Reward Decomposition, and Generalization

arXiv CS.LG·23 de abril de 2026

Esta investigación introduce el Proceso de Decisión de Markov Aumentado por Herramientas (TA-MDP) para modelar formalmente la toma de decisiones agénticas multimodales, abordando las lagunas teóricas en el ajuste fino por refuerzo para Grandes Modelos de Visión-Lenguaje (LVLMs). Examina cómo las recompensas verificables compuestas afectan la convergencia de GRPO y por qué el entrenamiento en pequeños conjuntos de datos se generaliza a dominios fuera de distribución para LVLMs agénticos.

Leer original