RESEARCH↑ trending42

110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp

Reddit r/LocalLLaMA·21 de maio de 2026

O autor alcançou 110 tok/s com 12GB de VRAM usando ik_llama.cpp no modelo Qwen3.6 35B A3B, notando um grande aumento de velocidade. Este desempenho é superior ao obtido com o llama.cpp regular após a fusão do PR MTP.

GPU VRAM LLM optimization llama.cpp Benchmarking AI performance

Ler original ↗