DOC↑ trending42
Qwen3.5-35B running well on RTX4060 Ti 16GB at 60 tok/s
Reddit r/LocalLLaMA·15 de abril de 2026
O autor compartilha a otimização bem-sucedida do modelo Qwen3.5-35B-A3B-UD-Q4_K_L para rodar em uma RTX 4060 Ti 16GB usando llama.cpp, alcançando 40-60 tokens/s com 64k de contexto. O post detalha a configuração `models.ini` e o comando de inicialização do servidor para replicar este desempenho.
Ler original ↗