DOC↑ trending42

Qwen3.5-35B running well on RTX4060 Ti 16GB at 60 tok/s

Reddit r/LocalLLaMA·15 de abril de 2026

El autor comparte una optimización exitosa para ejecutar el modelo Qwen3.5-35B-A3B-UD-Q4_K_L en una RTX 4060 Ti 16GB utilizando llama.cpp, logrando 40-60 tokens/s con 64k de contexto. La publicación detalla la configuración `models.ini` y el comando de inicio del servidor para replicar este rendimiento.

Hardware Acceleration AI Model Optimization llama.cpp local inference Qwen

Leer original ↗