← heapsort-ai

Qwen2.5

5 items

RESEARCH↑ trendingReddit r/MachineLearning·15/04/2026

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]

O autor obteve sucesso inicial no treinamento de um modelo Qwen2.5-0.5B-Instruct para sumarização de posts do Reddit usando GRPO, alcançando um comprimento médio de 64 tokens com recompensas de qualidade e penalidade de comprimento. O experimento, executado em um cluster de Mac Minis, utiliza um "LLM-as-a-Judge" (GPT-5) para avaliação e planeja futuras iterações com ajustes nas funções de recompensa.

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]
44
DOCDEV.to AI·09/05/2026

How to Deploy Qwen2.5 72B with vLLM + FastAPI on a $20/Month DigitalOcean GPU Droplet: Production Inference at 1/90th Claude Cost

Este artigo detalha como implantar o modelo Qwen2.5 72B em um droplet de GPU da DigitalOcean por apenas US$ 20/mês. Ele oferece uma alternativa de baixo custo às APIs de LLM comerciais, prometendo inferência em produção com desempenho competitivo ao Claude 3.5 Sonnet e uma redução de custos de 98%.

27