RESEARCH↑ trending42
Training Qwen2.5-0.5B-Instruct on Reddit posts summarization tasks with length constraint on my 3xMac Minis with GRPO - evals update [P]
Reddit r/MachineLearning·16 de abril de 2026
El autor entrenó Qwen2.5-0.5B-Instruct para tareas de resumen de posts de Reddit utilizando dos estrategias de recompensa, descubriendo que la combinación de penalizaciones de calidad y longitud resultó en resultados significativamente mejores. La evaluación se realizó con LLM-As-A-Judge y herramientas DeepEval para métricas como la conciencia y la claridad.
Leer original ↗