Qwen

46 items

ARTICLE↑ trendingReddit r/LocalLLaMA·23/04/2026

POV Qwen 3.5 with thinking

Ce contenu aborde le comportement du modèle d'IA Qwen 3.5, qui se retrouve fréquemment bloqué dans des boucles de pensée. L'auteur fait une observation brève et informelle sur cette caractéristique du modèle.

thinking loops model behavior AI model Qwen

ARTICLE↑ trendingReddit r/LocalLLaMA·22/04/2026

Forgive my ignorance but how is a 27B model better than 397B?

Un utilisateur exprime sa confusion sur la manière dont un modèle dense de 27 milliards de paramètres pourrait être meilleur qu'un modèle MoE de 397 milliards, en particulier concernant Qwen, et s'interroge sur l'utilité des experts supplémentaires.

AI models Model Architecture MoE Qwen

Forgive my ignorance but how is a 27B model better than 397B?

ARTICLE↑ trendingReddit r/LocalLLaMA·17/04/2026

Qwen 3.6 is the first local model that actually feels worth the effort for me

L'auteur estime que Qwen 3.6 est le premier modèle local qui vaut réellement l'effort, contrairement aux expériences précédentes où les modèles étaient trop faibles ou exigeaient trop de modifications. Fonctionnant sur un système 5090 + 4090, le modèle Q8 offre un contexte de 260k et 170 tokens/seconde, s'avérant efficace pour des tâches de codage comme l'UI XML et le C++ embarqué.

LLMs local models Qwen developer experience

CASE↑ trendingReddit r/LocalLLaMA·17/04/2026

Qwen3.6 is incredible with OpenCode!

L'utilisateur salue Qwen3.6 OpenCode comme un modèle local "incroyable" pour les tâches de codage complexes, soulignant son efficacité à implémenter le RLS sur une base de code multilingue. Bien qu'imparfait, sa capacité à itérer sur les erreurs de compilation en fait une alternative viable aux modèles comme Claude Code pour une utilisation quotidienne.

coding assistant OpenCode AI model review Qwen

CASE↑ trendingReddit r/LocalLLaMA·17/04/2026

Qwen3.6. This is it.

Un utilisateur raconte son expérience avec le modèle Qwen3.6, qui a réussi à construire et tester un jeu de tower defense, démontrant sa capacité à identifier et corriger ses propres bugs. L'IA a confirmé les constructions à l'aide de captures d'écran, stupéfiant l'utilisateur par ses capacités avancées.

game development code generation AI programming Qwen

RESEARCH↑ trendingReddit r/LocalLLaMA·11/04/2026

DFlash speculative decoding on Apple Silicon : 85 tok/s, 3.3x on Qwen3.5-9B (MLX, M5 Max)

Ce contenu décrit une implémentation native de DFlash en MLX pour Apple Silicon, qui accélère considérablement la génération de jetons pour les modèles Qwen. La technique de décodage spéculatif permet d'atteindre des accélérations allant jusqu'à 3.3x tout en maintenant une qualité de sortie identique.

apple-silicon MLX Qwen LLM performance

DOC↑ trendingReddit r/LocalLLaMA·06/05/2026

2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints

Ce contenu détaille comment obtenir une inférence 2,5 fois plus rapide avec Qwen 3.6 27B en utilisant le support MTP dans llama.cpp, atteignant 28 tok/s sur un M2 Max. Il fournit des fichiers GGUF convertis à télécharger, adaptés au codage agentique local avec 262k de contexte sur 48GB.

LLM optimization llama.cpp GGUF Qwen

ARTICLE↑ trendingReddit r/LocalLLaMA·16/04/2026

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.

Qwen 3.6 est désormais livré avec un nouveau drapeau `preserve_thinking` qui résout le problème d'invalidation du cache KV en maintenant le contexte de raisonnement complet du modèle. Cette fonctionnalité est particulièrement avantageuse pour les scénarios d'agents, améliorant la cohérence des décisions et optimisant la consommation de jetons et l'utilisation du cache KV.

large language models model optimization Qwen AI agents

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.

NEWS↑ trendingReddit r/LocalLLaMA·22/04/2026

Qwen 3.6 27B is out

Le modèle Qwen 3.6 27B a été lancé, constituant une nouvelle addition dans le domaine des grands modèles linguistiques. L'annonce renvoie à la page officielle du modèle sur Hugging Face pour plus de détails.

Qwen model release Large Language Model LLM

ARTICLE↑ trendingReddit r/LocalLLaMA·il y a 25j

Used over a million tokens in three separate sessions to test Qwen 3.6 35b (new Multi-token Prediction version)

L'auteur a testé le modèle Qwen 3.6 35b MTP localement, constatant une augmentation de vitesse de 1,5x. Il a exploré l'utilisation d'une grande fenêtre de contexte, atteignant 300k tokens avec un potentiel plus élevé.

LLMs Benchmarking Local AI Qwen

DOC↑ trendingReddit r/LocalLLaMA·11/04/2026

Run Qwen3.5-397B-A13B with vLLM and 8xR9700

Ce document détaille l'exécution optimisée du modèle Qwen3.5-397B-A17B-MXFP4 à l'aide de vLLM sur des GPU RDNA4, tels que 8xR9700. Il fournit un Dockerfile avec des correctifs Triton et des instructions pour télécharger le modèle et lancer le conteneur d'inférence.

Docker GPU MXFP4 Qwen

NEWS↑ trendingReddit r/LocalLLaMA·17/04/2026

Qwen3.6-35B-A3B Uncensored Aggressive is out with K_P quants!

La variante "Aggressive" du Qwen3.6-35B-A3B a été lancée, offrant une version non censurée du modèle original, sans refus et sans perte de capacités. Cette version inclut diverses quantifications K_P et un support vision.

uncensored AI quantization Qwen model release

DOC↑ trendingReddit r/LocalLLaMA·06/05/2026

Get faster qwen 3.6 27b

Le contenu détaille comment obtenir des performances plus rapides avec le modèle Qwen 3.6 27B en utilisant llama.cpp sur un GPU 3090. Il comprend les étapes pour appliquer un commit spécifique et les commandes de configuration du `llama-server` afin d'atteindre 50 t/s avec un contexte de 100k.

llama.cpp AI optimization GPU performance GGUF

ARTICLE↑ trendingReddit r/LocalLLaMA·12/04/2026

MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!

L'auteur compare les modèles GGUF MiniMax-M2.7 et Qwen3.5-122B-A10B pour le déchargement complet local sur un système avec 96 Go de VRAM. Pour ses besoins, le Qwen3.5-122B est préféré, même si MiniMax est plus quantifié, soulignant les compromis de performance pour l'inférence LLM locale.

VRAM GGUF MiniMax Qwen

MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!

ARTICLE↑ trendingReddit r/LocalLLaMA·17/04/2026

Qwen 3.6 35B crushes Gemma 4 26B on my tests

L'auteur a réalisé un benchmark personnel où Qwen 3.6 35B a surpassé Gemma 4 26B lors de tests évaluant les capacités agentiques, de codage, de synthèse image-texte, de suivi d'instructions et de raisonnement. Qwen a corrigé plus de problèmes, a eu moins de régressions et a terminé les tests plus rapidement, démontrant une meilleure performance globale.

LLM benchmarking Gemma Agentic AI Qwen

CASE↑ trendingReddit r/LocalLLaMA·23/04/2026

Qwen 3.6 is actually useful for vibe-coding, and way cheaper than Claude

L'auteur a implémenté avec succès les modèles Qwen 3.6 (27B et 35B) localement pour le codage, offrant des performances comparables à celles de Claude Code. Cette configuration locale a réduit drastiquement les coûts, passant d'une estimation de 142 $ en appels API à moins de 4 $ d'électricité sur 8 heures.

GPU Claude local inference Cost Savings

Qwen 3.6 is actually useful for vibe-coding, and way cheaper than Claude

RESEARCH↑ trendingReddit r/LocalLLaMA·06/05/2026

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)

Ce contenu compare la qualité de différentes quantifications du modèle Qwen 3.6 27B à l'aide d'un test de jeu d'échecs personnalisé afin de trouver l'option optimale pour les configurations avec 16 Go de VRAM. Il évalue la capacité des modèles à suivre les états du plateau et à générer des images SVG précises.

VRAM Benchmarking quantization model quality

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)

DOC↑ trendingReddit r/LocalLLaMA·15/04/2026

Qwen3.5-35B running well on RTX4060 Ti 16GB at 60 tok/s

L'auteur partage une optimisation réussie pour faire fonctionner le modèle Qwen3.5-35B-A3B-UD-Q4_K_L sur une RTX 4060 Ti 16GB avec llama.cpp, atteignant 40-60 tokens/s avec un contexte de 64k. Le billet fournit la configuration `models.ini` détaillée et la commande de démarrage du serveur pour reproduire cette performance.

Hardware Acceleration AI Model Optimization llama.cpp local inference

CASE↑ trendingReddit r/LocalLLaMA·18/04/2026

qwen3.6 performance jump is real, just make sure you have it properly configured

Un utilisateur signale que Qwen 3.6 présente un saut de performance significatif, se montrant capable pour des charges de travail habituellement confiées à Opus et Codex, bien qu'il n'atteigne pas encore leur niveau. L'utilisateur souligne son utilité et sa rapidité lorsqu'il est correctement configuré avec `preserve_thinking` sur un M5 Max avec des paramètres spécifiques.

LLMs AI hardware local inference AI performance

qwen3.6 performance jump is real, just make sure you have it properly configured

DOC↑ trendingReddit r/LocalLLaMA·il y a 27j

llama.cpp docker images to run MTP models

Ce contenu décrit la création d'images Docker pour `llama.cpp` afin de simplifier l'exécution des modèles MTP, suite à de nombreuses améliorations et corrections de bugs. Il mentionne également qu'Unsloth a publié de nouveaux modèles MTP pour Qwen 3.6, rendant les versions précédentes obsolètes.

AI models Docker llama.cpp Qwen