ARTICLE↑ trending42

Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix)

Reddit r/LocalLLaMA·30 de abril de 2026

Esta atualização detalha a execução do Qwen3.6-27B em uma única RTX 3090, alcançando ~218K de contexto e chamadas de ferramenta estáveis a 50-66 TPS. Um problema crítico de memória com saídas de ferramenta longas foi resolvido corrigindo um desvio de âncora em um patch Genesis (PN12) para vLLM.

Optimization hardware performance vLLM LLM

Ler original ↗