RESEARCH↑ trending44

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]

Reddit r/MachineLearning·15. April 2026

Der Autor trainierte erfolgreich ein Qwen2.5-0.5B-Instruct Modell zur Reddit-Post-Zusammenfassung mittels GRPO, wobei eine durchschnittliche Ausgabelänge von 64 Tokens mit kombinierten Qualitäts- und Längenbelohnungen erreicht wurde. Das auf einem Mac Mini Cluster durchgeführte Experiment nutzt ein LLM-as-a-Judge (GPT-5) zur Evaluierung und plant zukünftige Iterationen mit angepassten Belohnungsfunktionen.

reinforcement learning Qwen2.5 GRPO Reddit LLM

Original lesen ↗