ARTICLE↑ trending42
Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix)
Reddit r/LocalLLaMA·30 de abril de 2026
Esta atualização detalha a execução do Qwen3.6-27B em uma única RTX 3090, alcançando ~218K de contexto e chamadas de ferramenta estáveis a 50-66 TPS. Um problema crítico de memória com saídas de ferramenta longas foi resolvido corrigindo um desvio de âncora em um patch Genesis (PN12) para vLLM.
Ler original ↗