Qwen3.5

7 items

ARTICLE↑ trendingReddit r/LocalLLaMA·11/04/2026

Intel Arc Pro B70 32GB performance on Qwen3.5-27B@Q4

La carte Intel Arc Pro B70 32GB a atteint ~12 tps pour les requêtes uniques et 135 tps avec 32 concurrences sur Qwen3.5-27B@Q4, soit 20% de moins que la RTX PRO 4500. De plus, elle a consommé 50% plus d'énergie en forte concurrence, le parallélisme tensoriel dégradant les performances tandis que le parallélisme de pipeline les améliorait.

Qwen3.5 llama.cpp GPU performance Intel Arc Pro B70

ARTICLE↑ trendingReddit r/LocalLLaMA·10/04/2026

Qwen3.5-122B at 198 tok/s on 2x RTX PRO 6000 Blackwell — Budget build, verified results

O autor compartilha resultados de otimização de um servidor de inferência com duas GPUs para LLMs, alcançando 198 tok/s com o modelo Qwen3.5-122B NVFP4. O conteúdo detalha a configuração de hardware (2x RTX PRO 6000 Blackwell) e compara o desempenho de diferentes motores e modelos de linguagem.

Qwen3.5 Benchmarking GPU performance LLM inference

NEWS↑ trendingReddit r/LocalLLaMA·04/05/2026

Llama.cpp MTP support now in beta!

Le support MTP de llama.cpp est maintenant en version bêta, avec un support initial pour Qwen3.5 MTP et une fusion potentielle prochaine. Cette amélioration, ainsi que le support tensor-parallel en maturation, devrait combler les écarts de performance entre llama.cpp et vLLM, notamment en termes de vitesse de génération de jetons.

AI models Qwen3.5 MTP llama.cpp

ARTICLE↑ trendingReddit r/LocalLLaMA·08/04/2026

Qwen3.5-35B-A3B-Uncensored-FernflowerAI-GGUF

O autor encontrou e corrigiu um bug de treinamento no modelo Qwen3.5-35B-A3B, disponibilizando uma versão fixa, um prompt de sistema aprimorado, um template de chat com suporte a tool calling e configurações recomendadas para LM Studio. A correção aborda problemas de perda de contexto e repetição que ocorriam em conversas longas com a versão anterior do modelo.

Model Fix Qwen3.5 GGUF Uncensored

NEWS↑ trendingReddit r/LocalLLaMA·15/04/2026

DFlash Doubles the T/S Gen Speed of Qwen3.5 27B (BF16) on Mac M5 Max

Le nouveau support DFlash dans oMLX 0.3.5 RC1 a doublé la vitesse de génération du modèle Qwen3.5 27B (BF16) sur un Mac M5 Max, passant de 9 à 22 T/S. Cette avancée est cruciale pour le déploiement local de ce modèle de haute qualité avec des poids complets ou des quantifications plus élevées.

oMLX DFlash Qwen3.5 AI performance

DFlash Doubles the T/S Gen Speed of Qwen3.5 27B (BF16) on Mac M5 Max

ARTICLE↑ trendingReddit r/LocalLLaMA·10/04/2026

I no longer need a cloud LLM to do quick web research

O autor compartilha sua configuração para pesquisa e raspagem web rápida usando LLMs locais, especificamente Qwen3.5:27B-Q3_K_M em uma RTX 4090 com llama.cpp. Ele detalha as ferramentas e o processo que o permite realizar extração eficaz de conteúdo web offline, indicando que modelos locais agora atendem aos seus padrões de qualidade.

RTX 4090 Qwen3.5 local LLM llama.cpp

ARTICLEDEV.to AI·03/05/2026

BizNode uses Ollama (Qwen3.5) running locally on your hardware — your data never leaves your machine. True AI privacy

BizNode utilise Ollama (Qwen3.5) pour fonctionner localement sur le matériel de l'utilisateur, garantissant que les données ne quittent jamais la machine. Cela assure une véritable confidentialité de l'IA, protégeant ainsi les informations de l'utilisateur.

Qwen3.5 Ollama privacy security