← heapsort-ai

Qwen2.5

5 items

RESEARCH↑ trendingReddit r/MachineLearning·4/15/2026

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]

Der Autor trainierte erfolgreich ein Qwen2.5-0.5B-Instruct Modell zur Reddit-Post-Zusammenfassung mittels GRPO, wobei eine durchschnittliche Ausgabelänge von 64 Tokens mit kombinierten Qualitäts- und Längenbelohnungen erreicht wurde. Das auf einem Mac Mini Cluster durchgeführte Experiment nutzt ein LLM-as-a-Judge (GPT-5) zur Evaluierung und plant zukünftige Iterationen mit angepassten Belohnungsfunktionen.

Trained a Qwen2.5-0.5B-Instruct bf16 model on Reddit post summarization task with GRPO written from scratch in PyTorch - updates! [P]
44
DOCDEV.to AI·5/9/2026

How to Deploy Qwen2.5 72B with vLLM + FastAPI on a $20/Month DigitalOcean GPU Droplet: Production Inference at 1/90th Claude Cost

Dieser Artikel beschreibt detailliert, wie das Qwen2.5 72B-Modell für nur 20 $/Monat auf einem DigitalOcean GPU Droplet bereitgestellt werden kann. Es bietet eine kostengünstige Alternative zu kommerziellen LLM-APIs, verspricht Produktionsinferenz mit wettbewerbsfähiger Leistung zu Claude 3.5 Sonnet und eine Kostensenkung von 98 %.

27