DOC↑ trending42

Qwen3.5-35B running well on RTX4060 Ti 16GB at 60 tok/s

Reddit r/LocalLLaMA·15 avril 2026

L'auteur partage une optimisation réussie pour faire fonctionner le modèle Qwen3.5-35B-A3B-UD-Q4_K_L sur une RTX 4060 Ti 16GB avec llama.cpp, atteignant 40-60 tokens/s avec un contexte de 64k. Le billet fournit la configuration `models.ini` détaillée et la commande de démarrage du serveur pour reproduire cette performance.

Hardware Acceleration AI Model Optimization llama.cpp local inference Qwen

Lire l'original ↗