Policy optimization

6 items

RESEARCHarXiv CS.LG·hace 19d

GROW: Aligning GRPO with State-Action Modeling for Open-World VLM Agents

Este artículo presenta GROW, un marco de RL para agentes VLM en tareas de mundo abierto, superando las limitaciones de los métodos basados en SFT. Propone un enfoque novedoso para GRPO, descomponiendo trayectorias en muestras de estado-acción en lugar de entidades completas.

VLM Agents Policy optimization Open-world AI reinforcement learning

DOCAWS Machine Learning Blog·7/5/2026

Overcoming reward signal challenges: Verifiable rewards-based reinforcement learning with GRPO on SageMaker AI

Esta publicación detalla la implementación del aprendizaje por refuerzo basado en recompensas verificables (RLVR) para mejorar el rendimiento del entrenamiento, asegurando transparencia y corrección en las señales de recompensa. Cubre técnicas como GRPO y ejemplos de pocas tomas, demostrados con el conjunto de datos GSM8K para mejorar la precisión en la resolución de problemas matemáticos.

Policy optimization reinforcement learning learning AI training

RESEARCHarXiv CS.AI·13/4/2026

StaRPO: Stability-Augmented Reinforcement Policy Optimization

StaRPO es un nuevo marco de aprendizaje por refuerzo diseñado para mejorar la consistencia lógica de los grandes modelos de lenguaje en tareas de razonamiento complejas. Incorpora explícitamente métricas de estabilidad, como la Función de Autocorrelación y la Eficiencia de la Ruta, para evaluar la coherencia local y la direccionalidad global del proceso de razonamiento.

Policy optimization LLMs reinforcement learning Reasoning

RESEARCHarXiv CS.CL·hace 13d

RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents

RICE-PO es un nuevo marco de optimización de políticas sin crítico que aborda el desafío de asignación de crédito en agentes de lenguaje interactivos. Convierte las interacciones de recuperación en señales de aprendizaje localizadas, evaluando acciones ejecutables y propagando crédito a pasos de razonamiento latentes.

Policy optimization reinforcement learning Retrieval systems AI agents

RESEARCHarXiv CS.CL·7/5/2026

Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning

Esta investigación propone la Optimización de Política de Media de Potencia Adaptativa (APMPO) para mejorar el razonamiento de Modelos de Lenguaje Grandes (LLMs) mediante RLVR. APMPO utiliza un objetivo de media de potencia generalizado y un recorte adaptable por retroalimentación para mejorar la dinámica de aprendizaje y el rendimiento.

Policy optimization LLMs reinforcement learning machine learning

RESEARCHQwen Blog·27/7/2025

GSPO: Towards Scalable Reinforcement Learning for Language Models

O Reinforcement Learning é crucial para escalar modelos de linguagem, mas algoritmos existentes sofrem de instabilidade e colapso do modelo. Para resolver isso e permitir o escalonamento bem-sucedido, propõe-se o algoritmo Group Sequence Policy Optimization (GSPO).

Scalability Policy optimization language models reinforcement learning