ARTICLE↑ trending42
RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s with 128K context, the --n-cpu-moe flag is the most important part.
Reddit r/LocalLLaMA·18. April 2026
Die Optimierung von Qwen3.6-35B-A3B auf Consumer-Hardware (RTX 5070 Ti, Ryzen 9800X3D) erreicht 79 t/s mit 128K Kontext. Der Schlüssel ist die korrekte Verwendung von `--n-cpu-moe N` in llama.cpp, was `--cpu-moe` übertrifft, indem es mehr GPU-VRAM für MoE-Experten nutzt.
Original lesen ↗