ARTICLE↑ trending42
Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix)
Reddit r/LocalLLaMA·30. April 2026
Dieses Update beschreibt den Betrieb von Qwen3.6-27B auf einer einzelnen RTX 3090, wodurch ein Kontext von ~218K und stabile Werkzeugaufrufe bei 50-66 TPS erreicht werden. Ein kritisches Speicherproblem bei langen Werkzeugausgaben wurde durch die Behebung eines Ankerdrifts in einem Genesis-Patch (PN12) für vLLM gelöst.
Original lesen ↗