RESEARCH↑ trending38

QWEN3.6 + ik_llama is fast af

Reddit r/LocalLLaMA·19. April 2026

Ein Benutzer berichtete, dass das Modell Qwen3.6 + ik_llama mit über 50 Tokens/Sekunde bei einem Kontextfenster von 200k auf 16 GB VRAM und 32 GB RAM lief. Dies ist ein signifikanter Leistungsbenchmark für große Sprachmodelle.

Benchmarking hardware performance LLM

Original lesen ↗