RESEARCH↑ trendingReddit r/LocalLLaMA·19d atrás
110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp
O autor alcançou 110 tok/s com 12GB de VRAM usando ik_llama.cpp no modelo Qwen3.6 35B A3B, notando um grande aumento de velocidade. Este desempenho é superior ao obtido com o llama.cpp regular após a fusão do PR MTP.
42