ARTICLE↑ trendingReddit r/LocalLLaMA·18/04/2026
RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s with 128K context, the --n-cpu-moe flag is the most important part.
O conteúdo detalha como otimizar o Qwen3.6-35B-A3B em hardware de consumo (RTX 5070 Ti, Ryzen 9800X3D), atingindo 79 t/s com contexto de 128K. A descoberta principal é o uso correto do flag `--n-cpu-moe N` no llama.cpp, que supera significativamente o `--cpu-moe` comum ao utilizar mais VRAM da GPU para os especialistas MoE.
42