heapsort
RESEARCH↑ trending42

Training Qwen2.5-0.5B-Instruct on Reddit posts summarization tasks with length constraint on my 3xMac Minis with GRPO - evals update [P]

Reddit r/MachineLearning·16 avril 2026

L'auteur a entraîné Qwen2.5-0.5B-Instruct pour des tâches de résumé de posts Reddit avec deux stratégies de récompense, constatant qu'une combinaison de pénalités de qualité et de longueur donnait des résultats significativement meilleurs. L'évaluation a été réalisée à l'aide de LLM-As-A-Judge et des outils DeepEval pour des métriques comme la conscience et la clarté.

Lire l'original