RESEARCH↑ trending42

110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp

Reddit r/LocalLLaMA·21 mai 2026

L'auteur a atteint 110 tok/s avec 12GB de VRAM en utilisant ik_llama.cpp sur le modèle Qwen3.6 35B A3B, constatant une augmentation significative de la vitesse. Cette performance a dépassé celle de llama.cpp régulier après la fusion de son PR MTP.

GPU VRAM LLM optimization llama.cpp Benchmarking AI performance

Lire l'original ↗