← heapsort-ai

Qwen2.5

5 items

RESEARCH↑ trendingReddit r/MachineLearning·15/04/2026

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]

L'auteur a réussi à entraîner un modèle Qwen2.5-0.5B-Instruct pour la summarisation de posts Reddit en utilisant GRPO, atteignant une longueur moyenne de 64 tokens avec des récompenses de qualité et de pénalité de longueur. L'expérience, exécutée sur un cluster de Mac Minis, utilise un "LLM-as-a-Judge" (GPT-5) pour l'évaluation et prévoit de futures itérations avec des fonctions de récompense ajustées.

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]
44
DOCDEV.to AI·09/05/2026

How to Deploy Qwen2.5 72B with vLLM + FastAPI on a $20/Month DigitalOcean GPU Droplet: Production Inference at 1/90th Claude Cost

Cet article explique comment déployer le modèle Qwen2.5 72B sur un Droplet GPU DigitalOcean pour seulement 20 $/mois. Il offre une alternative économique aux API LLM commerciales, promettant une inférence en production avec des performances comparables à Claude 3.5 Sonnet et une réduction de coût de 98 %.

27