← heapsort-ai

GRPO

2 items

RESEARCH↑ trendingReddit r/MachineLearning·4/15/2026

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]

Der Autor trainierte erfolgreich ein Qwen2.5-0.5B-Instruct Modell zur Reddit-Post-Zusammenfassung mittels GRPO, wobei eine durchschnittliche Ausgabelänge von 64 Tokens mit kombinierten Qualitäts- und Längenbelohnungen erreicht wurde. Das auf einem Mac Mini Cluster durchgeführte Experiment nutzt ein LLM-as-a-Judge (GPT-5) zur Evaluierung und plant zukünftige Iterationen mit angepassten Belohnungsfunktionen.

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]
44
RESEARCHarXiv CS.CL·vor 4T

Improving Heart-Focused Medical Question Answering in LLMs via Variance-Aware Rubric Rewards with GRPO

Diese Forschung untersucht die Verbesserung der herzfokussierten medizinischen Fragenbeantwortung in großen Sprachmodellen (LLMs) mithilfe der Gruppenrelativen Richtlinienoptimierung (GRPO) für das Nachtraining. Es wird ein Varianzbewusster Belohnungsrahmen vorgeschlagen, der die rubrikbasierte Überwachung mit kontinuierlichen analytischen Belohnungsfunktionen verbessert.

30