DOC↑ trending42

Qwen3.5-35B running well on RTX4060 Ti 16GB at 60 tok/s

Reddit r/LocalLLaMA·15. April 2026

Der Autor teilt eine erfolgreiche Optimierung zum Betrieb des Qwen3.5-35B-A3B-UD-Q4_K_L Modells auf einer RTX 4060 Ti 16GB mittels llama.cpp, wodurch 40-60 Token/s bei 64k Kontext erreicht werden. Der Beitrag liefert die detaillierte `models.ini`-Konfiguration und den Serverstartbefehl, um diese Leistung zu reproduzieren.

Hardware Acceleration AI Model Optimization llama.cpp local inference Qwen

Original lesen ↗