ARTICLE↑ trendingReddit r/LocalLLaMA·18/4/2026
RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s with 128K context, the --n-cpu-moe flag is the most important part.
El contenido detalla cómo optimizar Qwen3.6-35B-A3B en hardware de consumo (RTX 5070 Ti, Ryzen 9800X3D), logrando 79 t/s con contexto de 128K. El hallazgo clave es el uso correcto de la bandera `--n-cpu-moe N` en llama.cpp, que supera significativamente a la común `--cpu-moe` al usar más VRAM de la GPU para los expertos MoE.
42