← heapsort-ai

Policy optimization

6 items

DOCAWS Machine Learning Blog·7/5/2026

Overcoming reward signal challenges: Verifiable rewards-based reinforcement learning with GRPO on SageMaker AI

Esta publicación detalla la implementación del aprendizaje por refuerzo basado en recompensas verificables (RLVR) para mejorar el rendimiento del entrenamiento, asegurando transparencia y corrección en las señales de recompensa. Cubre técnicas como GRPO y ejemplos de pocas tomas, demostrados con el conjunto de datos GSM8K para mejorar la precisión en la resolución de problemas matemáticos.

29
RESEARCHarXiv CS.AI·13/4/2026

StaRPO: Stability-Augmented Reinforcement Policy Optimization

StaRPO es un nuevo marco de aprendizaje por refuerzo diseñado para mejorar la consistencia lógica de los grandes modelos de lenguaje en tareas de razonamiento complejas. Incorpora explícitamente métricas de estabilidad, como la Función de Autocorrelación y la Eficiencia de la Ruta, para evaluar la coherencia local y la direccionalidad global del proceso de razonamiento.

27
RESEARCHarXiv CS.CL·hace 13d

RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents

RICE-PO es un nuevo marco de optimización de políticas sin crítico que aborda el desafío de asignación de crédito en agentes de lenguaje interactivos. Convierte las interacciones de recuperación en señales de aprendizaje localizadas, evaluando acciones ejecutables y propagando crédito a pasos de razonamiento latentes.

27
RESEARCHarXiv CS.CL·7/5/2026

Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning

Esta investigación propone la Optimización de Política de Media de Potencia Adaptativa (APMPO) para mejorar el razonamiento de Modelos de Lenguaje Grandes (LLMs) mediante RLVR. APMPO utiliza un objetivo de media de potencia generalizado y un recorte adaptable por retroalimentación para mejorar la dinámica de aprendizaje y el rendimiento.

27