RESEARCH↑ trending42
110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp
Reddit r/LocalLLaMA·21 de maio de 2026
O autor alcançou 110 tok/s com 12GB de VRAM usando ik_llama.cpp no modelo Qwen3.6 35B A3B, notando um grande aumento de velocidade. Este desempenho é superior ao obtido com o llama.cpp regular após a fusão do PR MTP.
Ler original ↗