GRPO

2 items

RESEARCH↑ trendingReddit r/MachineLearning·4/15/2026

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]

The author successfully trained a Qwen2.5-0.5B-Instruct model for Reddit post summarization using GRPO, achieving an average rollout length of 64 tokens with combined quality and length rewards. The experiment, run on a Mac Mini cluster, uses an LLM-as-a-Judge (GPT-5) for evaluation and plans future iterations with adjusted reward functions.

reinforcement learning Qwen2.5 GRPO Reddit

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]

RESEARCHarXiv CS.CL·4d ago

Improving Heart-Focused Medical Question Answering in LLMs via Variance-Aware Rubric Rewards with GRPO

This research investigates optimizing Large Language Models (LLMs) for heart-focused medical question answering using Group Relative Policy Optimization (GRPO) for post-training. A Variance-Aware Reward Framework is proposed to enhance rubric-based supervision with continuous analytical reward functions.

LLMs Medical Question Answering GRPO healthcare AI