RESEARCH↑ trending42

Training Qwen2.5-0.5B-Instruct on Reddit posts summarization tasks with length constraint on my 3xMac Minis with GRPO - evals update [P]

Reddit r/MachineLearning·16 de abril de 2026

El autor entrenó Qwen2.5-0.5B-Instruct para tareas de resumen de posts de Reddit utilizando dos estrategias de recompensa, descubriendo que la combinación de penalizaciones de calidad y longitud resultó en resultados significativamente mejores. La evaluación se realizó con LLM-As-A-Judge y herramientas DeepEval para métricas como la conciencia y la claridad.

evaluation reinforcement learning AI training summarization LLM

Leer original ↗