ARTICLE↑ trending42
Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix)
Reddit r/LocalLLaMA·30 de abril de 2026
Esta actualización detalla la ejecución de Qwen3.6-27B en una sola RTX 3090, logrando un contexto de ~218K y llamadas de herramientas estables a 50-66 TPS. Se resolvió un problema crítico de memoria con salidas de herramientas largas al corregir una desviación de anclaje en un parche Genesis (PN12) para vLLM.
Leer original ↗