ARTICLE↑ trendingReddit r/LocalLLaMA·18/04/2026
RTX 5070 Ti + 9800X3D running Qwen3.6-35B-A3B at 79 t/s with 128K context, the --n-cpu-moe flag is the most important part.
Le contenu détaille comment optimiser Qwen3.6-35B-A3B sur du matériel grand public (RTX 5070 Ti, Ryzen 9800X3D), atteignant 79 t/s avec 128K de contexte. La découverte majeure est l'utilisation correcte du flag `--n-cpu-moe N` dans llama.cpp, qui surpasse significativement le `--cpu-moe` commun en utilisant plus de VRAM GPU pour les experts MoE.
42