Policy optimization

6 items

RESEARCHarXiv CS.LG·19d atrás

GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents

Este artigo introduz GROW, uma estrutura de RL para agentes VLM em tarefas de mundo aberto, superando as limitações de métodos baseados em SFT. Ele propõe uma nova abordagem para o GRPO, decompondo trajetórias em amostras de estado-ação em vez de entidades completas.

VLM Agents Policy optimization Open-world AI reinforcement learning

DOCAWS Machine Learning Blog·07/05/2026

Overcoming reward signal challenges: Verifiable rewards-based reinforcement learning with GRPO on SageMaker AI

Este post detalha a implementação de aprendizado por reforço baseado em recompensas verificáveis (RLVR) para melhorar o desempenho do treinamento, garantindo transparência e correção nos sinais de recompensa. Abrange técnicas como GRPO e exemplos de few-shot, demonstrados com o dataset GSM8K para aprimorar a precisão na resolução de problemas matemáticos.

Policy optimization reinforcement learning learning AI training

RESEARCHarXiv CS.AI·13/04/2026

StaRPO: Stability-Augmented Reinforcement Policy Optimization

StaRPO é um novo framework de aprendizagem por reforço projetado para melhorar a consistência lógica de modelos de linguagem grandes em tarefas de raciocínio complexas. Ele incorpora explicitamente métricas de estabilidade, como Função de Autocorrelação e Eficiência do Caminho, para avaliar a coerência local e a direcionalidade global do processo de raciocínio.

Policy optimization LLMs reinforcement learning Reasoning

RESEARCHarXiv CS.CL·13d atrás

RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents

RICE-PO é uma nova estrutura de otimização de políticas que aborda o desafio de atribuição de crédito em agentes de linguagem interativos. Ele converte interações de recuperação em sinais de aprendizado localizados, avaliando ações executáveis e propagando crédito para etapas de raciocínio latentes.

Policy optimization reinforcement learning Retrieval systems AI agents

RESEARCHarXiv CS.CL·07/05/2026

Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning

Esta pesquisa apresenta a Otimização de Política de Média de Potência Adaptativa (APMPO) para melhorar as capacidades de raciocínio de Grandes Modelos de Linguagem (LLMs) usando RLVR. O APMPO integra um objetivo de média de potência generalizado e recorte adaptativo por feedback para otimizar a dinâmica de aprendizado e o desempenho.

Policy optimization LLMs reinforcement learning machine learning

RESEARCHQwen Blog·27/07/2025

GSPO: Towards Scalable Reinforcement Learning for Language Models

O Reinforcement Learning é crucial para escalar modelos de linguagem, mas algoritmos existentes sofrem de instabilidade e colapso do modelo. Para resolver isso e permitir o escalonamento bem-sucedido, propõe-se o algoritmo Group Sequence Policy Optimization (GSPO).

Scalability Policy optimization language models reinforcement learning