← heapsort-ai

Qwen2.5

5 items

RESEARCH↑ trendingReddit r/MachineLearning·15/4/2026

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]

El autor logró un éxito inicial entrenando un modelo Qwen2.5-0.5B-Instruct para la sumarización de publicaciones de Reddit utilizando GRPO, obteniendo una longitud de despliegue promedio de 64 tokens con recompensas de calidad y penalización de longitud. El experimento, ejecutado en un clúster de Mac Minis, emplea un "LLM-as-a-Judge" (GPT-5) para la evaluación y planea futuras iteraciones con funciones de recompensa ajustadas.

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]
44
DOCDEV.to AI·9/5/2026

How to Deploy Qwen2.5 72B with vLLM + FastAPI on a $20/Month DigitalOcean GPU Droplet: Production Inference at 1/90th Claude Cost

Este artículo detalla cómo implementar el modelo Qwen2.5 72B en un droplet de GPU de DigitalOcean por solo $20 al mes. Ofrece una alternativa de bajo costo a las APIs comerciales de LLM, prometiendo inferencia de producción con un rendimiento competitivo al de Claude 3.5 Sonnet y una reducción de costos del 98%.

27