DOC↑ trendingReddit r/LocalLLaMA·4/15/2026
Qwen3.5-35B running well on RTX4060 Ti 16GB at 60 tok/s
Der Autor teilt eine erfolgreiche Optimierung zum Betrieb des Qwen3.5-35B-A3B-UD-Q4_K_L Modells auf einer RTX 4060 Ti 16GB mittels llama.cpp, wodurch 40-60 Token/s bei 64k Kontext erreicht werden. Der Beitrag liefert die detaillierte `models.ini`-Konfiguration und den Serverstartbefehl, um diese Leistung zu reproduzieren.
42