GPU VRAM — artigos, notícias e pesquisas de IA

RESEARCH↑ trendingReddit r/LocalLLaMA·19d atrás

110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp

O autor alcançou 110 tok/s com 12GB de VRAM usando ik_llama.cpp no modelo Qwen3.6 35B A3B, notando um grande aumento de velocidade. Este desempenho é superior ao obtido com o llama.cpp regular após a fusão do PR MTP.

GPU VRAM LLM optimization llama.cpp Benchmarking