← heapsort-ai

Policy optimization

6 items

DOCAWS Machine Learning Blog·07/05/2026

Overcoming reward signal challenges: Verifiable rewards-based reinforcement learning with GRPO on SageMaker AI

Este post detalha a implementação de aprendizado por reforço baseado em recompensas verificáveis (RLVR) para melhorar o desempenho do treinamento, garantindo transparência e correção nos sinais de recompensa. Abrange técnicas como GRPO e exemplos de few-shot, demonstrados com o dataset GSM8K para aprimorar a precisão na resolução de problemas matemáticos.

29
RESEARCHarXiv CS.AI·13/04/2026

StaRPO: Stability-Augmented Reinforcement Policy Optimization

StaRPO é um novo framework de aprendizagem por reforço projetado para melhorar a consistência lógica de modelos de linguagem grandes em tarefas de raciocínio complexas. Ele incorpora explicitamente métricas de estabilidade, como Função de Autocorrelação e Eficiência do Caminho, para avaliar a coerência local e a direcionalidade global do processo de raciocínio.

27
RESEARCHarXiv CS.CL·07/05/2026

Adapt to Thrive! Adaptive Power-Mean Policy Optimization for Improved LLM Reasoning

Esta pesquisa apresenta a Otimização de Política de Média de Potência Adaptativa (APMPO) para melhorar as capacidades de raciocínio de Grandes Modelos de Linguagem (LLMs) usando RLVR. O APMPO integra um objetivo de média de potência generalizado e recorte adaptativo por feedback para otimizar a dinâmica de aprendizado e o desempenho.

27