DOC↑ trendingReddit r/LocalLLaMA·15/4/2026
Qwen3.5-35B running well on RTX4060 Ti 16GB at 60 tok/s
El autor comparte una optimización exitosa para ejecutar el modelo Qwen3.5-35B-A3B-UD-Q4_K_L en una RTX 4060 Ti 16GB utilizando llama.cpp, logrando 40-60 tokens/s con 64k de contexto. La publicación detalla la configuración `models.ini` y el comando de inicio del servidor para replicar este rendimiento.
42