Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]
O autor obteve sucesso inicial no treinamento de um modelo Qwen2.5-0.5B-Instruct para sumarização de posts do Reddit usando GRPO, alcançando um comprimento médio de 64 tokens com recompensas de qualidade e penalidade de comprimento. O experimento, executado em um cluster de Mac Minis, utiliza um "LLM-as-a-Judge" (GPT-5) para avaliação e planeja futuras iterações com ajustes nas funções de recompensa.
![Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]](/cdn-cgi/image/width=3840,quality=75,format=webp/https://preview.redd.it/7nrsulwdkbvg1.png?width=140&height=69&auto=webp&s=7c61d2f68d6b094614b5dff0cb9347873885e226)