POV Qwen 3.5 with thinking
Dieser Inhalt befasst sich mit dem Verhalten des KI-Modells Qwen 3.5, das häufig in Denkschleifen stecken bleibt. Der Autor macht eine kurze, informelle Bemerkung zu dieser Eigenschaft des Modells.

Dieser Inhalt befasst sich mit dem Verhalten des KI-Modells Qwen 3.5, das häufig in Denkschleifen stecken bleibt. Der Autor macht eine kurze, informelle Bemerkung zu dieser Eigenschaft des Modells.

Ein Nutzer drückt seine Verwirrung darüber aus, wie ein 27B dichtes Modell besser sein kann als ein 397B MoE-Modell, insbesondere in Bezug auf Qwen, und hinterfragt den Nutzen der zusätzlichen Experten.

Der Autor empfindet Qwen 3.6 als das erste lokale Modell, das den Aufwand wirklich wert ist, im Gegensatz zu früheren Erfahrungen mit Modellen, die entweder zu schwach waren oder übermäßige Anpassungen erforderten. Auf einem 5090 + 4090 Setup bietet das Q8-Modell einen Kontext von 260.000 und 170 Token/Sekunde und erweist sich als effektiv für Codierungsaufgaben wie UI XML und eingebettetes C++.
Der Nutzer lobt Qwen3.6 OpenCode als "unglaubliches" lokales Modell für komplexe Codierungsaufgaben und hebt dessen Effektivität bei der Implementierung von RLS über eine mehrsprachige Codebasis hinweg hervor. Obwohl nicht perfekt, macht seine Fähigkeit, Compilerfehler zu iterieren, es zu einer praktikablen Alternative zu Modellen wie Claude Code für den täglichen Gebrauch.
Ein Nutzer berichtet von seiner Erfahrung mit dem Qwen3.6-Modell, das erfolgreich ein Tower-Defense-Spiel erstellte und testete und dabei die Fähigkeit zeigte, eigene Fehler zu identifizieren und zu beheben. Die KI bestätigte die Builds mittels Screenshots, was den Nutzer mit ihren fortschrittlichen Fähigkeiten verblüffte.

Dieser Inhalt beschreibt eine native DFlash-Implementierung auf MLX für Apple Silicon, die die Token-Generierung in Qwen-Modellen erheblich beschleunigt. Die spekulative Dekodierungstechnik erreicht Beschleunigungen von bis zu 3,3x bei gleichbleibender Ausgabequalität.
Dieser Inhalt beschreibt, wie man mit Qwen 3.6 27B und MTP-Unterstützung in llama.cpp eine 2,5-mal schnellere Inferenz erreicht, was 28 Tok/s auf einem M2 Max ermöglicht. Es werden konvertierte GGUF-Dateien zum Download bereitgestellt, die sich für lokale Agentenprogrammierung mit 262k Kontext auf 48GB eignen.
Qwen 3.6 wird jetzt mit einem neuen `preserve_thinking`-Flag ausgeliefert, das das Problem der KV-Cache-Invalidierung durch Beibehaltung des vollständigen Argumentationskontexts des Modells behebt. Diese Funktion ist besonders vorteilhaft für Agenten-Szenarien, da sie die Entscheidungskonsistenz verbessert und den Token-Verbrauch sowie die KV-Cache-Nutzung optimiert.

Das Modell Qwen 3.6 27B wurde veröffentlicht und stellt eine neue Ergänzung im Bereich der großen Sprachmodelle dar. Die Ankündigung verweist auf die offizielle Hugging Face-Seite des Modells für weitere Details.
Der Autor testete das Qwen 3.6 35b MTP-Modell lokal und stellte eine 1,5-fache Geschwindigkeitssteigerung fest. Er untersuchte die Nutzung eines großen Kontextfensters und erreichte 300.000 Tokens mit Potenzial für mehr.
Dieses Dokument beschreibt die optimierte Ausführung des Qwen3.5-397B-A17B-MXFP4-Modells mittels vLLM auf RDNA4-GPUs, wie 8xR9700. Es enthält ein Dockerfile mit Triton-Patches und Anweisungen zum Herunterladen des Modells sowie zum Starten des Inferenz-Containers.
Die Qwen3.6-35B-A3B "Aggressive" Variante wurde veröffentlicht und bietet eine unzensierte Version des Originalmodells ohne Ablehnungen und keinerlei Funktionsverlust. Diese Veröffentlichung umfasst verschiedene K_P Quantisierungen sowie Bildunterstützung.
Der Inhalt beschreibt, wie man mit dem Qwen 3.6 27B-Modell unter Verwendung von llama.cpp auf einer 3090 GPU eine schnellere Leistung erzielt. Es enthält Schritte zur Anwendung eines spezifischen Commits und `llama-server`-Einrichtungsbefehle, um 50 t/s bei 100k Kontext zu erreichen.
Der Autor vergleicht die GGUF-Modelle MiniMax-M2.7 und Qwen3.5-122B-A10B für den lokalen Full Offload auf einem System mit 96 GB VRAM. Obwohl MiniMax stärker quantisiert ist, wird Qwen3.5-122B für ihre Zwecke bevorzugt, was die Leistungskompromisse bei der lokalen LLM-Inferenz unterstreicht.

Der Autor führte einen persönlichen Benchmark durch, bei dem Qwen 3.6 35B Gemma 4 26B in Tests zur Bewertung von Agentenfähigkeiten, Programmierung, Bild-zu-Text-Synthese, Befolgung von Anweisungen und logischem Denken deutlich übertraf. Qwen behob mehr Probleme, zeigte weniger Regressionen und erledigte die Aufgaben in kürzerer Zeit, was auf eine überlegene Gesamtleistung hindeutet.
Der Autor hat Qwen 3.6 Modelle (27B und 35B) erfolgreich lokal für das Codieren implementiert und dabei eine vergleichbare Leistung wie Claude Code erzielt. Diese lokale Einrichtung senkte die Kosten drastisch, von geschätzten 142 $ für API-Aufrufe auf weniger als 4 $ Stromkosten über 8 Stunden.

Dieser Inhalt vergleicht die Qualität verschiedener Qwen 3.6 27B Modell-Quantisierungen mittels eines benutzerdefinierten Schachspiels, um die optimale Option für 16 GB VRAM-Setups zu finden. Es bewertet die Fähigkeit der Modelle, den Zustand des Bretts zu verfolgen und genaue SVG-Bilder zu generieren.

Der Autor teilt eine erfolgreiche Optimierung zum Betrieb des Qwen3.5-35B-A3B-UD-Q4_K_L Modells auf einer RTX 4060 Ti 16GB mittels llama.cpp, wodurch 40-60 Token/s bei 64k Kontext erreicht werden. Der Beitrag liefert die detaillierte `models.ini`-Konfiguration und den Serverstartbefehl, um diese Leistung zu reproduzieren.
Ein Benutzer berichtet, dass Qwen 3.6 einen signifikanten Leistungssprung demonstriert und sich als fähig für Workloads erweist, die typischerweise von Opus und Codex bewältigt werden, wenn auch noch nicht auf deren Niveau. Der Benutzer hebt seine Nützlichkeit und Geschwindigkeit hervor, besonders wenn es mit `preserve_thinking` auf einem M5 Max mit spezifischen Einstellungen korrekt konfiguriert ist.

Dieser Inhalt beschreibt die Erstellung von Docker-Images für `llama.cpp`, um die Ausführung von MTP-Modellen nach zahlreichen Verbesserungen und Fehlerbehebungen zu vereinfachen. Es wird auch erwähnt, dass Unsloth neue MTP-Modelle für Qwen 3.6 veröffentlicht hat, wodurch frühere Versionen obsolet werden.