ARTICLE↑ trendingReddit r/LocalLLaMA·4/18/2026
RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s with 128K context, the --n-cpu-moe flag is the most important part.
Die Optimierung von Qwen3.6-35B-A3B auf Consumer-Hardware (RTX 5070 Ti, Ryzen 9800X3D) erreicht 79 t/s mit 128K Kontext. Der Schlüssel ist die korrekte Verwendung von `--n-cpu-moe N` in llama.cpp, was `--cpu-moe` übertrifft, indem es mehr GPU-VRAM für MoE-Experten nutzt.
42