heapsort
RESEARCH↑ trending42

Training Qwen2.5-0.5B-Instruct on Reddit posts summarization tasks with length constraint on my 3xMac Minis with GRPO - evals update [P]

Reddit r/MachineLearning·16. April 2026

Der Autor trainierte Qwen2.5-0.5B-Instruct für die Zusammenfassung von Reddit-Posts mithilfe zweier Belohnungsstrategien und stellte fest, dass eine Kombination aus Qualitäts- und Längenabzügen deutlich bessere Ergebnisse lieferte. Die Evaluation erfolgte mittels LLM-As-A-Judge und DeepEval Tools für Metriken wie Gewissenhaftigkeit und Klarheit.

Original lesen