2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints
Dieser Inhalt beschreibt, wie man mit Qwen 3.6 27B und MTP-Unterstützung in llama.cpp eine 2,5-mal schnellere Inferenz erreicht, was 28 Tok/s auf einem M2 Max ermöglicht. Es werden konvertierte GGUF-Dateien zum Download bereitgestellt, die sich für lokale Agentenprogrammierung mit 262k Kontext auf 48GB eignen.
