DOC↑ trending42

Qwen3.5-35B running well on RTX4060 Ti 16GB at 60 tok/s

Reddit r/LocalLLaMA·15 de abril de 2026

O autor compartilha a otimização bem-sucedida do modelo Qwen3.5-35B-A3B-UD-Q4_K_L para rodar em uma RTX 4060 Ti 16GB usando llama.cpp, alcançando 40-60 tokens/s com 64k de contexto. O post detalha a configuração `models.ini` e o comando de inicialização do servidor para replicar este desempenho.

Hardware Acceleration AI Model Optimization llama.cpp local inference Qwen

Ler original ↗