DOC↑ trending42
Qwen3.5-35B running well on RTX4060 Ti 16GB at 60 tok/s
Reddit r/LocalLLaMA·15 avril 2026
L'auteur partage une optimisation réussie pour faire fonctionner le modèle Qwen3.5-35B-A3B-UD-Q4_K_L sur une RTX 4060 Ti 16GB avec llama.cpp, atteignant 40-60 tokens/s avec un contexte de 64k. Le billet fournit la configuration `models.ini` détaillée et la commande de démarrage du serveur pour reproduire cette performance.
Lire l'original ↗