RESEARCH↑ trending38

QWEN3.6 + ik_llama is fast af

Reddit r/LocalLLaMA·19 avril 2026

Un utilisateur a rapporté l'exécution du modèle Qwen3.6 + ik_llama à plus de 50 tokens/seconde avec une fenêtre de contexte de 200k sur 16 Go de VRAM et 32 Go de RAM. Cela constitue une référence de performance significative pour les grands modèles linguistiques.

benchmarking hardware performance LLM

Lire l'original ↗