POV Qwen 3.5 with thinking
Ce contenu aborde le comportement du modèle d'IA Qwen 3.5, qui se retrouve fréquemment bloqué dans des boucles de pensée. L'auteur fait une observation brève et informelle sur cette caractéristique du modèle.

Ce contenu aborde le comportement du modèle d'IA Qwen 3.5, qui se retrouve fréquemment bloqué dans des boucles de pensée. L'auteur fait une observation brève et informelle sur cette caractéristique du modèle.

Un utilisateur exprime sa confusion sur la manière dont un modèle dense de 27 milliards de paramètres pourrait être meilleur qu'un modèle MoE de 397 milliards, en particulier concernant Qwen, et s'interroge sur l'utilité des experts supplémentaires.

L'auteur estime que Qwen 3.6 est le premier modèle local qui vaut réellement l'effort, contrairement aux expériences précédentes où les modèles étaient trop faibles ou exigeaient trop de modifications. Fonctionnant sur un système 5090 + 4090, le modèle Q8 offre un contexte de 260k et 170 tokens/seconde, s'avérant efficace pour des tâches de codage comme l'UI XML et le C++ embarqué.
L'utilisateur salue Qwen3.6 OpenCode comme un modèle local "incroyable" pour les tâches de codage complexes, soulignant son efficacité à implémenter le RLS sur une base de code multilingue. Bien qu'imparfait, sa capacité à itérer sur les erreurs de compilation en fait une alternative viable aux modèles comme Claude Code pour une utilisation quotidienne.
Un utilisateur raconte son expérience avec le modèle Qwen3.6, qui a réussi à construire et tester un jeu de tower defense, démontrant sa capacité à identifier et corriger ses propres bugs. L'IA a confirmé les constructions à l'aide de captures d'écran, stupéfiant l'utilisateur par ses capacités avancées.

Ce contenu décrit une implémentation native de DFlash en MLX pour Apple Silicon, qui accélère considérablement la génération de jetons pour les modèles Qwen. La technique de décodage spéculatif permet d'atteindre des accélérations allant jusqu'à 3.3x tout en maintenant une qualité de sortie identique.
Ce contenu détaille comment obtenir une inférence 2,5 fois plus rapide avec Qwen 3.6 27B en utilisant le support MTP dans llama.cpp, atteignant 28 tok/s sur un M2 Max. Il fournit des fichiers GGUF convertis à télécharger, adaptés au codage agentique local avec 262k de contexte sur 48GB.
Qwen 3.6 est désormais livré avec un nouveau drapeau `preserve_thinking` qui résout le problème d'invalidation du cache KV en maintenant le contexte de raisonnement complet du modèle. Cette fonctionnalité est particulièrement avantageuse pour les scénarios d'agents, améliorant la cohérence des décisions et optimisant la consommation de jetons et l'utilisation du cache KV.

Le modèle Qwen 3.6 27B a été lancé, constituant une nouvelle addition dans le domaine des grands modèles linguistiques. L'annonce renvoie à la page officielle du modèle sur Hugging Face pour plus de détails.
L'auteur a testé le modèle Qwen 3.6 35b MTP localement, constatant une augmentation de vitesse de 1,5x. Il a exploré l'utilisation d'une grande fenêtre de contexte, atteignant 300k tokens avec un potentiel plus élevé.
Ce document détaille l'exécution optimisée du modèle Qwen3.5-397B-A17B-MXFP4 à l'aide de vLLM sur des GPU RDNA4, tels que 8xR9700. Il fournit un Dockerfile avec des correctifs Triton et des instructions pour télécharger le modèle et lancer le conteneur d'inférence.
La variante "Aggressive" du Qwen3.6-35B-A3B a été lancée, offrant une version non censurée du modèle original, sans refus et sans perte de capacités. Cette version inclut diverses quantifications K_P et un support vision.
Le contenu détaille comment obtenir des performances plus rapides avec le modèle Qwen 3.6 27B en utilisant llama.cpp sur un GPU 3090. Il comprend les étapes pour appliquer un commit spécifique et les commandes de configuration du `llama-server` afin d'atteindre 50 t/s avec un contexte de 100k.
L'auteur compare les modèles GGUF MiniMax-M2.7 et Qwen3.5-122B-A10B pour le déchargement complet local sur un système avec 96 Go de VRAM. Pour ses besoins, le Qwen3.5-122B est préféré, même si MiniMax est plus quantifié, soulignant les compromis de performance pour l'inférence LLM locale.

L'auteur a réalisé un benchmark personnel où Qwen 3.6 35B a surpassé Gemma 4 26B lors de tests évaluant les capacités agentiques, de codage, de synthèse image-texte, de suivi d'instructions et de raisonnement. Qwen a corrigé plus de problèmes, a eu moins de régressions et a terminé les tests plus rapidement, démontrant une meilleure performance globale.
L'auteur a implémenté avec succès les modèles Qwen 3.6 (27B et 35B) localement pour le codage, offrant des performances comparables à celles de Claude Code. Cette configuration locale a réduit drastiquement les coûts, passant d'une estimation de 142 $ en appels API à moins de 4 $ d'électricité sur 8 heures.

Ce contenu compare la qualité de différentes quantifications du modèle Qwen 3.6 27B à l'aide d'un test de jeu d'échecs personnalisé afin de trouver l'option optimale pour les configurations avec 16 Go de VRAM. Il évalue la capacité des modèles à suivre les états du plateau et à générer des images SVG précises.

L'auteur partage une optimisation réussie pour faire fonctionner le modèle Qwen3.5-35B-A3B-UD-Q4_K_L sur une RTX 4060 Ti 16GB avec llama.cpp, atteignant 40-60 tokens/s avec un contexte de 64k. Le billet fournit la configuration `models.ini` détaillée et la commande de démarrage du serveur pour reproduire cette performance.
Un utilisateur signale que Qwen 3.6 présente un saut de performance significatif, se montrant capable pour des charges de travail habituellement confiées à Opus et Codex, bien qu'il n'atteigne pas encore leur niveau. L'utilisateur souligne son utilité et sa rapidité lorsqu'il est correctement configuré avec `preserve_thinking` sur un M5 Max avec des paramètres spécifiques.

Ce contenu décrit la création d'images Docker pour `llama.cpp` afin de simplifier l'exécution des modèles MTP, suite à de nombreuses améliorations et corrections de bugs. Il mentionne également qu'Unsloth a publié de nouveaux modèles MTP pour Qwen 3.6, rendant les versions précédentes obsolètes.