RESEARCH↑ trending38

QWEN3.6 + ik_llama is fast af

Reddit r/LocalLLaMA·19 de abril de 2026

Um usuário reportou a execução do modelo Qwen3.6 + ik_llama, atingindo mais de 50 tokens por segundo com uma janela de contexto de 200 mil palavras em 16GB VRAM e 32GB RAM. Este é um resultado de benchmark de desempenho significativo para modelos de linguagem grandes.

Benchmarking hardware performance LLM

Ler original ↗