← heapsort-ai

Qwen

46 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/17/2026

Qwen 3.6 is the first local model that actually feels worth the effort for me

Der Autor empfindet Qwen 3.6 als das erste lokale Modell, das den Aufwand wirklich wert ist, im Gegensatz zu früheren Erfahrungen mit Modellen, die entweder zu schwach waren oder übermäßige Anpassungen erforderten. Auf einem 5090 + 4090 Setup bietet das Q8-Modell einen Kontext von 260.000 und 170 Token/Sekunde und erweist sich als effektiv für Codierungsaufgaben wie UI XML und eingebettetes C++.

46
CASE↑ trendingReddit r/LocalLLaMA·4/17/2026

Qwen3.6 is incredible with OpenCode!

Der Nutzer lobt Qwen3.6 OpenCode als "unglaubliches" lokales Modell für komplexe Codierungsaufgaben und hebt dessen Effektivität bei der Implementierung von RLS über eine mehrsprachige Codebasis hinweg hervor. Obwohl nicht perfekt, macht seine Fähigkeit, Compilerfehler zu iterieren, es zu einer praktikablen Alternative zu Modellen wie Claude Code für den täglichen Gebrauch.

44
CASE↑ trendingReddit r/LocalLLaMA·4/17/2026

Qwen3.6. This is it.

Ein Nutzer berichtet von seiner Erfahrung mit dem Qwen3.6-Modell, das erfolgreich ein Tower-Defense-Spiel erstellte und testete und dabei die Fähigkeit zeigte, eigene Fehler zu identifizieren und zu beheben. Die KI bestätigte die Builds mittels Screenshots, was den Nutzer mit ihren fortschrittlichen Fähigkeiten verblüffte.

Qwen3.6. This is it.
43
DOC↑ trendingReddit r/LocalLLaMA·5/6/2026

2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints

Dieser Inhalt beschreibt, wie man mit Qwen 3.6 27B und MTP-Unterstützung in llama.cpp eine 2,5-mal schnellere Inferenz erreicht, was 28 Tok/s auf einem M2 Max ermöglicht. Es werden konvertierte GGUF-Dateien zum Download bereitgestellt, die sich für lokale Agentenprogrammierung mit 262k Kontext auf 48GB eignen.

43
ARTICLE↑ trendingReddit r/LocalLLaMA·4/16/2026

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.

Qwen 3.6 wird jetzt mit einem neuen `preserve_thinking`-Flag ausgeliefert, das das Problem der KV-Cache-Invalidierung durch Beibehaltung des vollständigen Argumentationskontexts des Modells behebt. Diese Funktion ist besonders vorteilhaft für Agenten-Szenarien, da sie die Entscheidungskonsistenz verbessert und den Token-Verbrauch sowie die KV-Cache-Nutzung optimiert.

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.
43
NEWS↑ trendingReddit r/LocalLLaMA·4/22/2026

Qwen 3.6 27B is out

Das Modell Qwen 3.6 27B wurde veröffentlicht und stellt eine neue Ergänzung im Bereich der großen Sprachmodelle dar. Die Ankündigung verweist auf die offizielle Hugging Face-Seite des Modells für weitere Details.

42
DOC↑ trendingReddit r/LocalLLaMA·4/11/2026

Run Qwen3.5-397B-A13B with vLLM and 8xR9700

Dieses Dokument beschreibt die optimierte Ausführung des Qwen3.5-397B-A17B-MXFP4-Modells mittels vLLM auf RDNA4-GPUs, wie 8xR9700. Es enthält ein Dockerfile mit Triton-Patches und Anweisungen zum Herunterladen des Modells sowie zum Starten des Inferenz-Containers.

42
DOC↑ trendingReddit r/LocalLLaMA·5/6/2026

Get faster qwen 3.6 27b

Der Inhalt beschreibt, wie man mit dem Qwen 3.6 27B-Modell unter Verwendung von llama.cpp auf einer 3090 GPU eine schnellere Leistung erzielt. Es enthält Schritte zur Anwendung eines spezifischen Commits und `llama-server`-Einrichtungsbefehle, um 50 t/s bei 100k Kontext zu erreichen.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·4/12/2026

MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!

Der Autor vergleicht die GGUF-Modelle MiniMax-M2.7 und Qwen3.5-122B-A10B für den lokalen Full Offload auf einem System mit 96 GB VRAM. Obwohl MiniMax stärker quantisiert ist, wird Qwen3.5-122B für ihre Zwecke bevorzugt, was die Leistungskompromisse bei der lokalen LLM-Inferenz unterstreicht.

MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!
42
ARTICLE↑ trendingReddit r/LocalLLaMA·4/17/2026

Qwen 3.6 35B crushes Gemma 4 26B on my tests

Der Autor führte einen persönlichen Benchmark durch, bei dem Qwen 3.6 35B Gemma 4 26B in Tests zur Bewertung von Agentenfähigkeiten, Programmierung, Bild-zu-Text-Synthese, Befolgung von Anweisungen und logischem Denken deutlich übertraf. Qwen behob mehr Probleme, zeigte weniger Regressionen und erledigte die Aufgaben in kürzerer Zeit, was auf eine überlegene Gesamtleistung hindeutet.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·5/6/2026

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)

Dieser Inhalt vergleicht die Qualität verschiedener Qwen 3.6 27B Modell-Quantisierungen mittels eines benutzerdefinierten Schachspiels, um die optimale Option für 16 GB VRAM-Setups zu finden. Es bewertet die Fähigkeit der Modelle, den Zustand des Bretts zu verfolgen und genaue SVG-Bilder zu generieren.

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)
42
CASE↑ trendingReddit r/LocalLLaMA·4/18/2026

qwen3.6 performance jump is real, just make sure you have it properly configured

Ein Benutzer berichtet, dass Qwen 3.6 einen signifikanten Leistungssprung demonstriert und sich als fähig für Workloads erweist, die typischerweise von Opus und Codex bewältigt werden, wenn auch noch nicht auf deren Niveau. Der Benutzer hebt seine Nützlichkeit und Geschwindigkeit hervor, besonders wenn es mit `preserve_thinking` auf einem M5 Max mit spezifischen Einstellungen korrekt konfiguriert ist.

qwen3.6 performance jump is real, just make sure you have it properly configured
42
DOC↑ trendingReddit r/LocalLLaMA·vor 27T

llama.cpp docker images to run MTP models

Dieser Inhalt beschreibt die Erstellung von Docker-Images für `llama.cpp`, um die Ausführung von MTP-Modellen nach zahlreichen Verbesserungen und Fehlerbehebungen zu vereinfachen. Es wird auch erwähnt, dass Unsloth neue MTP-Modelle für Qwen 3.6 veröffentlicht hat, wodurch frühere Versionen obsolet werden.

41