← heapsort-ai

Qwen3.5

7 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/11/2026

Intel Arc Pro B70 32GB performance on Qwen3.5-27B@Q4

Die Intel Arc Pro B70 32GB Karte erreichte auf Qwen3.5-27B@Q4 ~12 tps bei einzelnen Anfragen und 135 tps bei 32 gleichzeitigen Anfragen, was 20% weniger ist als bei der RTX PRO 4500. Außerdem verbrauchte sie bei hoher Parallelität 50% mehr Strom, wobei Tensor-Parallelisierung die Leistung verschlechterte, während Pipeline-Parallelisierung sie verbesserte.

43
NEWS↑ trendingReddit r/LocalLLaMA·5/4/2026

Llama.cpp MTP support now in beta!

Die MTP-Unterstützung für llama.cpp befindet sich jetzt in der Beta-Phase, mit anfänglicher Unterstützung für Qwen3.5 MTP und dem Potenzial für eine baldige Zusammenführung. Diese Verbesserung, zusammen mit der Reifung der Tensor-Parallel-Unterstützung, wird voraussichtlich die Leistungsunterschiede zwischen llama.cpp und vLLM, insbesondere bei der Token-Generierungsgeschwindigkeit, beseitigen.

Llama.cpp MTP support now in beta!
42
ARTICLE↑ trendingReddit r/LocalLLaMA·4/8/2026

Qwen3.5-35B-A3B-Uncensored-FernflowerAI-GGUF

O autor encontrou e corrigiu um bug de treinamento no modelo Qwen3.5-35B-A3B, disponibilizando uma versão fixa, um prompt de sistema aprimorado, um template de chat com suporte a tool calling e configurações recomendadas para LM Studio. A correção aborda problemas de perda de contexto e repetição que ocorriam em conversas longas com a versão anterior do modelo.

42
ARTICLE↑ trendingReddit r/LocalLLaMA·4/10/2026

I no longer need a cloud LLM to do quick web research

O autor compartilha sua configuração para pesquisa e raspagem web rápida usando LLMs locais, especificamente Qwen3.5:27B-Q3_K_M em uma RTX 4090 com llama.cpp. Ele detalha as ferramentas e o processo que o permite realizar extração eficaz de conteúdo web offline, indicando que modelos locais agora atendem aos seus padrões de qualidade.

38