Qwen3.5

7 items

ARTICLE↑ trendingReddit r/LocalLLaMA·11/4/2026

Intel Arc Pro B70 32GB performance on Qwen3.5-27B@Q4

La tarjeta Intel Arc Pro B70 32GB alcanzó ~12 tps para consultas únicas y 135 tps con 32 concurrencias en Qwen3.5-27B@Q4, siendo un 20% menos que la RTX PRO 4500. Adicionalmente, consumió un 50% más de energía en alta concurrencia, con el paralelismo de tensor degradando y el de pipeline mejorando el rendimiento.

Qwen3.5 llama.cpp GPU performance Intel Arc Pro B70

ARTICLE↑ trendingReddit r/LocalLLaMA·10/4/2026

Qwen3.5-122B at 198 tok/s on 2x RTX PRO 6000 Blackwell — Budget build, verified results

O autor compartilha resultados de otimização de um servidor de inferência com duas GPUs para LLMs, alcançando 198 tok/s com o modelo Qwen3.5-122B NVFP4. O conteúdo detalha a configuração de hardware (2x RTX PRO 6000 Blackwell) e compara o desempenho de diferentes motores e modelos de linguagem.

Qwen3.5 Benchmarking GPU performance LLM inference

NEWS↑ trendingReddit r/LocalLLaMA·4/5/2026

Llama.cpp MTP support now in beta!

El soporte MTP para llama.cpp ya está en fase beta, con soporte inicial para Qwen3.5 MTP y potencial de fusión en breve. Se espera que esta mejora, junto con el soporte tensor-parallel, elimine las brechas de rendimiento entre llama.cpp y vLLM, especialmente en la velocidad de generación de tokens.

AI models Qwen3.5 MTP llama.cpp

ARTICLE↑ trendingReddit r/LocalLLaMA·8/4/2026

Qwen3.5-35B-A3B-Uncensored-FernflowerAI-GGUF

O autor encontrou e corrigiu um bug de treinamento no modelo Qwen3.5-35B-A3B, disponibilizando uma versão fixa, um prompt de sistema aprimorado, um template de chat com suporte a tool calling e configurações recomendadas para LM Studio. A correção aborda problemas de perda de contexto e repetição que ocorriam em conversas longas com a versão anterior do modelo.

Model Fix Qwen3.5 GGUF Uncensored

NEWS↑ trendingReddit r/LocalLLaMA·15/4/2026

DFlash Doubles the T/S Gen Speed of Qwen3.5 27B (BF16) on Mac M5 Max

El nuevo soporte DFlash en oMLX 0.3.5 RC1 ha duplicado la velocidad de generación del modelo Qwen3.5 27B (BF16) en un Mac M5 Max, de 9 a 22 T/S. Esta mejora es fundamental para la implementación local de este modelo de alta calidad con pesos completos o cuantizaciones más altas.

oMLX DFlash Qwen3.5 AI performance

DFlash Doubles the T/S Gen Speed of Qwen3.5 27B (BF16) on Mac M5 Max

ARTICLE↑ trendingReddit r/LocalLLaMA·10/4/2026

I no longer need a cloud LLM to do quick web research

O autor compartilha sua configuração para pesquisa e raspagem web rápida usando LLMs locais, especificamente Qwen3.5:27B-Q3_K_M em uma RTX 4090 com llama.cpp. Ele detalha as ferramentas e o processo que o permite realizar extração eficaz de conteúdo web offline, indicando que modelos locais agora atendem aos seus padrões de qualidade.

RTX 4090 Qwen3.5 local LLM llama.cpp

ARTICLEDEV.to AI·3/5/2026

BizNode uses Ollama (Qwen3.5) running locally on your hardware — your data never leaves your machine. True AI privacy

BizNode utiliza Ollama (Qwen3.5) para ejecutarse localmente en el hardware del usuario, garantizando que los datos nunca salgan de la máquina. Esto ofrece verdadera privacidad de IA, manteniendo segura la información del usuario.

Qwen3.5 Ollama privacy security