← heapsort-ai

GRPO

2 items

RESEARCH↑ trendingReddit r/MachineLearning·15/04/2026

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]

O autor obteve sucesso inicial no treinamento de um modelo Qwen2.5-0.5B-Instruct para sumarização de posts do Reddit usando GRPO, alcançando um comprimento médio de 64 tokens com recompensas de qualidade e penalidade de comprimento. O experimento, executado em um cluster de Mac Minis, utiliza um "LLM-as-a-Judge" (GPT-5) para avaliação e planeja futuras iterações com ajustes nas funções de recompensa.

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]
44
RESEARCHarXiv CS.CL·4d atrás

Improving Heart-Focused Medical Question Answering in LLMs via Variance-Aware Rubric Rewards with GRPO

Esta pesquisa investiga a otimização de Modelos de Linguagem Grandes (LLMs) para resposta a perguntas médicas focadas no coração, utilizando a Otimização de Política Relativa de Grupo (GRPO) para pós-treinamento. É proposto um Framework de Recompensa Sensível à Variância que melhora a supervisão baseada em rubricas com funções de recompensa analíticas contínuas.

30