heapsort
RESEARCH↑ trending42

Training Qwen2.5-0.5B-Instruct on Reddit posts summarization tasks with length constraint on my 3xMac Minis with GRPO - evals update [P]

Reddit r/MachineLearning·16 de abril de 2026

O autor treinou o Qwen2.5-0.5B-Instruct para sumarização de posts do Reddit com duas estratégias de recompensa, descobrindo que a combinação de penalidades de qualidade e comprimento produziu resultados significativamente melhores. A avaliação foi feita usando LLM-As-A-Judge e ferramentas DeepEval para métricas como conscienciosidade e clareza.

Ler original