RESEARCH↑ trending44

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]

Reddit r/MachineLearning·15 de abril de 2026

O autor obteve sucesso inicial no treinamento de um modelo Qwen2.5-0.5B-Instruct para sumarização de posts do Reddit usando GRPO, alcançando um comprimento médio de 64 tokens com recompensas de qualidade e penalidade de comprimento. O experimento, executado em um cluster de Mac Minis, utiliza um "LLM-as-a-Judge" (GPT-5) para avaliação e planeja futuras iterações com ajustes nas funções de recompensa.

reinforcement learning Qwen2.5 GRPO Reddit LLM

Ler original ↗