Qwen

46 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/23/2026

POV Qwen 3.5 with thinking

Dieser Inhalt befasst sich mit dem Verhalten des KI-Modells Qwen 3.5, das häufig in Denkschleifen stecken bleibt. Der Autor macht eine kurze, informelle Bemerkung zu dieser Eigenschaft des Modells.

thinking loops model behavior AI model Qwen

ARTICLE↑ trendingReddit r/LocalLLaMA·4/22/2026

Forgive my ignorance but how is a 27B model better than 397B?

Ein Nutzer drückt seine Verwirrung darüber aus, wie ein 27B dichtes Modell besser sein kann als ein 397B MoE-Modell, insbesondere in Bezug auf Qwen, und hinterfragt den Nutzen der zusätzlichen Experten.

AI models Model Architecture MoE Qwen

Forgive my ignorance but how is a 27B model better than 397B?

ARTICLE↑ trendingReddit r/LocalLLaMA·4/17/2026

Qwen 3.6 is the first local model that actually feels worth the effort for me

Der Autor empfindet Qwen 3.6 als das erste lokale Modell, das den Aufwand wirklich wert ist, im Gegensatz zu früheren Erfahrungen mit Modellen, die entweder zu schwach waren oder übermäßige Anpassungen erforderten. Auf einem 5090 + 4090 Setup bietet das Q8-Modell einen Kontext von 260.000 und 170 Token/Sekunde und erweist sich als effektiv für Codierungsaufgaben wie UI XML und eingebettetes C++.

LLMs local models Qwen developer experience

CASE↑ trendingReddit r/LocalLLaMA·4/17/2026

Qwen3.6 is incredible with OpenCode!

Der Nutzer lobt Qwen3.6 OpenCode als "unglaubliches" lokales Modell für komplexe Codierungsaufgaben und hebt dessen Effektivität bei der Implementierung von RLS über eine mehrsprachige Codebasis hinweg hervor. Obwohl nicht perfekt, macht seine Fähigkeit, Compilerfehler zu iterieren, es zu einer praktikablen Alternative zu Modellen wie Claude Code für den täglichen Gebrauch.

coding assistant OpenCode AI model review Qwen

CASE↑ trendingReddit r/LocalLLaMA·4/17/2026

Qwen3.6. This is it.

Ein Nutzer berichtet von seiner Erfahrung mit dem Qwen3.6-Modell, das erfolgreich ein Tower-Defense-Spiel erstellte und testete und dabei die Fähigkeit zeigte, eigene Fehler zu identifizieren und zu beheben. Die KI bestätigte die Builds mittels Screenshots, was den Nutzer mit ihren fortschrittlichen Fähigkeiten verblüffte.

game development code generation AI programming Qwen

RESEARCH↑ trendingReddit r/LocalLLaMA·4/11/2026

DFlash speculative decoding on Apple Silicon : 85 tok/s, 3.3x on Qwen3.5-9B (MLX, M5 Max)

Dieser Inhalt beschreibt eine native DFlash-Implementierung auf MLX für Apple Silicon, die die Token-Generierung in Qwen-Modellen erheblich beschleunigt. Die spekulative Dekodierungstechnik erreicht Beschleunigungen von bis zu 3,3x bei gleichbleibender Ausgabequalität.

apple-silicon MLX Qwen LLM performance

DOC↑ trendingReddit r/LocalLLaMA·5/6/2026

2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints

Dieser Inhalt beschreibt, wie man mit Qwen 3.6 27B und MTP-Unterstützung in llama.cpp eine 2,5-mal schnellere Inferenz erreicht, was 28 Tok/s auf einem M2 Max ermöglicht. Es werden konvertierte GGUF-Dateien zum Download bereitgestellt, die sich für lokale Agentenprogrammierung mit 262k Kontext auf 48GB eignen.

LLM optimization llama.cpp GGUF Qwen

ARTICLE↑ trendingReddit r/LocalLLaMA·4/16/2026

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.

Qwen 3.6 wird jetzt mit einem neuen `preserve_thinking`-Flag ausgeliefert, das das Problem der KV-Cache-Invalidierung durch Beibehaltung des vollständigen Argumentationskontexts des Modells behebt. Diese Funktion ist besonders vorteilhaft für Agenten-Szenarien, da sie die Entscheidungskonsistenz verbessert und den Token-Verbrauch sowie die KV-Cache-Nutzung optimiert.

large language models model optimization Qwen AI agents

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.

NEWS↑ trendingReddit r/LocalLLaMA·4/22/2026

Qwen 3.6 27B is out

Das Modell Qwen 3.6 27B wurde veröffentlicht und stellt eine neue Ergänzung im Bereich der großen Sprachmodelle dar. Die Ankündigung verweist auf die offizielle Hugging Face-Seite des Modells für weitere Details.

Qwen model release Large Language Model LLM

ARTICLE↑ trendingReddit r/LocalLLaMA·vor 25T

Used over a million tokens in three separate sessions to test Qwen 3.6 35b (new Multi-token Prediction version)

Der Autor testete das Qwen 3.6 35b MTP-Modell lokal und stellte eine 1,5-fache Geschwindigkeitssteigerung fest. Er untersuchte die Nutzung eines großen Kontextfensters und erreichte 300.000 Tokens mit Potenzial für mehr.

LLMs Benchmarking Local AI Qwen

DOC↑ trendingReddit r/LocalLLaMA·4/11/2026

Run Qwen3.5-397B-A13B with vLLM and 8xR9700

Dieses Dokument beschreibt die optimierte Ausführung des Qwen3.5-397B-A17B-MXFP4-Modells mittels vLLM auf RDNA4-GPUs, wie 8xR9700. Es enthält ein Dockerfile mit Triton-Patches und Anweisungen zum Herunterladen des Modells sowie zum Starten des Inferenz-Containers.

Docker GPU MXFP4 Qwen

NEWS↑ trendingReddit r/LocalLLaMA·4/17/2026

Qwen3.6-35B-A3B Uncensored Aggressive is out with K_P quants!

Die Qwen3.6-35B-A3B "Aggressive" Variante wurde veröffentlicht und bietet eine unzensierte Version des Originalmodells ohne Ablehnungen und keinerlei Funktionsverlust. Diese Veröffentlichung umfasst verschiedene K_P Quantisierungen sowie Bildunterstützung.

uncensored AI quantization Qwen model release

DOC↑ trendingReddit r/LocalLLaMA·5/6/2026

Get faster qwen 3.6 27b

Der Inhalt beschreibt, wie man mit dem Qwen 3.6 27B-Modell unter Verwendung von llama.cpp auf einer 3090 GPU eine schnellere Leistung erzielt. Es enthält Schritte zur Anwendung eines spezifischen Commits und `llama-server`-Einrichtungsbefehle, um 50 t/s bei 100k Kontext zu erreichen.

llama.cpp AI optimization GPU performance GGUF

ARTICLE↑ trendingReddit r/LocalLLaMA·4/12/2026

MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!

Der Autor vergleicht die GGUF-Modelle MiniMax-M2.7 und Qwen3.5-122B-A10B für den lokalen Full Offload auf einem System mit 96 GB VRAM. Obwohl MiniMax stärker quantisiert ist, wird Qwen3.5-122B für ihre Zwecke bevorzugt, was die Leistungskompromisse bei der lokalen LLM-Inferenz unterstreicht.

VRAM GGUF MiniMax Qwen

MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!

ARTICLE↑ trendingReddit r/LocalLLaMA·4/17/2026

Qwen 3.6 35B crushes Gemma 4 26B on my tests

Der Autor führte einen persönlichen Benchmark durch, bei dem Qwen 3.6 35B Gemma 4 26B in Tests zur Bewertung von Agentenfähigkeiten, Programmierung, Bild-zu-Text-Synthese, Befolgung von Anweisungen und logischem Denken deutlich übertraf. Qwen behob mehr Probleme, zeigte weniger Regressionen und erledigte die Aufgaben in kürzerer Zeit, was auf eine überlegene Gesamtleistung hindeutet.

LLM benchmarking Gemma Agentic AI Qwen

CASE↑ trendingReddit r/LocalLLaMA·4/23/2026

Qwen 3.6 is actually useful for vibe-coding, and way cheaper than Claude

Der Autor hat Qwen 3.6 Modelle (27B und 35B) erfolgreich lokal für das Codieren implementiert und dabei eine vergleichbare Leistung wie Claude Code erzielt. Diese lokale Einrichtung senkte die Kosten drastisch, von geschätzten 142 $ für API-Aufrufe auf weniger als 4 $ Stromkosten über 8 Stunden.

GPU Claude local inference Cost Savings

Qwen 3.6 is actually useful for vibe-coding, and way cheaper than Claude

RESEARCH↑ trendingReddit r/LocalLLaMA·5/6/2026

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)

Dieser Inhalt vergleicht die Qualität verschiedener Qwen 3.6 27B Modell-Quantisierungen mittels eines benutzerdefinierten Schachspiels, um die optimale Option für 16 GB VRAM-Setups zu finden. Es bewertet die Fähigkeit der Modelle, den Zustand des Bretts zu verfolgen und genaue SVG-Bilder zu generieren.

VRAM Benchmarking quantization model quality

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)

DOC↑ trendingReddit r/LocalLLaMA·4/15/2026

Qwen3.5-35B running well on RTX4060 Ti 16GB at 60 tok/s

Der Autor teilt eine erfolgreiche Optimierung zum Betrieb des Qwen3.5-35B-A3B-UD-Q4_K_L Modells auf einer RTX 4060 Ti 16GB mittels llama.cpp, wodurch 40-60 Token/s bei 64k Kontext erreicht werden. Der Beitrag liefert die detaillierte `models.ini`-Konfiguration und den Serverstartbefehl, um diese Leistung zu reproduzieren.

Hardware Acceleration AI Model Optimization llama.cpp local inference

CASE↑ trendingReddit r/LocalLLaMA·4/18/2026

qwen3.6 performance jump is real, just make sure you have it properly configured

Ein Benutzer berichtet, dass Qwen 3.6 einen signifikanten Leistungssprung demonstriert und sich als fähig für Workloads erweist, die typischerweise von Opus und Codex bewältigt werden, wenn auch noch nicht auf deren Niveau. Der Benutzer hebt seine Nützlichkeit und Geschwindigkeit hervor, besonders wenn es mit `preserve_thinking` auf einem M5 Max mit spezifischen Einstellungen korrekt konfiguriert ist.

LLMs AI hardware local inference AI performance

qwen3.6 performance jump is real, just make sure you have it properly configured

DOC↑ trendingReddit r/LocalLLaMA·vor 27T

llama.cpp docker images to run MTP models

Dieser Inhalt beschreibt die Erstellung von Docker-Images für `llama.cpp`, um die Ausführung von MTP-Modellen nach zahlreichen Verbesserungen und Fehlerbehebungen zu vereinfachen. Es wird auch erwähnt, dass Unsloth neue MTP-Modelle für Qwen 3.6 veröffentlicht hat, wodurch frühere Versionen obsolet werden.

AI models Docker llama.cpp Qwen