RESEARCH↑ trending42

110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp

Reddit r/LocalLLaMA·21. Mai 2026

Der Autor erreichte 110 tok/s mit 12GB VRAM unter Verwendung von ik_llama.cpp auf dem Qwen3.6 35B A3B Modell und verzeichnete einen erheblichen Geschwindigkeitszuwachs. Diese Leistung übertraf die von regulärem llama.cpp nach dem MTP PR Merge.

GPU VRAM LLM optimization llama.cpp Benchmarking AI performance

Original lesen ↗