Qwen

46 items

ARTICLE↑ trendingReddit r/LocalLLaMA·23/4/2026

POV Qwen 3.5 with thinking

Este contenido aborda el comportamiento del modelo de IA Qwen 3.5, que frecuentemente se queda atascado en bucles de pensamiento. El autor hace una observación breve e informal sobre esta característica del modelo.

thinking loops model behavior AI model Qwen

ARTICLE↑ trendingReddit r/LocalLLaMA·22/4/2026

Forgive my ignorance but how is a 27B model better than 397B?

Un usuario expresa confusión sobre cómo un modelo denso de 27B puede ser superior a un modelo MoE de 397B, mencionando Qwen, y cuestiona la utilidad de los expertos adicionales.

AI models Model Architecture MoE Qwen

Forgive my ignorance but how is a 27B model better than 397B?

ARTICLE↑ trendingReddit r/LocalLLaMA·17/4/2026

Qwen 3.6 is the first local model that actually feels worth the effort for me

El autor considera a Qwen 3.6 el primer modelo local que realmente vale la pena, a diferencia de experiencias anteriores donde los modelos eran débiles o requerían mucho esfuerzo. Funcionando en un sistema con 5090 + 4090, el modelo Q8 ofrece 260k de contexto y 170 tokens/segundo, siendo eficaz para tareas de codificación como UI XML y C++ embebido.

LLMs local models Qwen developer experience

CASE↑ trendingReddit r/LocalLLaMA·17/4/2026

Qwen3.6 is incredible with OpenCode!

El usuario elogia a Qwen3.6 OpenCode como un modelo local "increíble" para tareas de codificación complejas, destacando su eficacia en la implementación de RLS en una base de código multilingüe. Aunque no es perfecto, su capacidad para iterar sobre errores de compilación lo convierte en una alternativa viable a modelos como Claude Code para uso diario.

coding assistant OpenCode AI model review Qwen

CASE↑ trendingReddit r/LocalLLaMA·17/4/2026

Qwen3.6. This is it.

Un usuario relata su experiencia con el modelo Qwen3.6, que construyó y probó con éxito un juego de defensa de torres, demostrando la capacidad de identificar y corregir sus propios errores. La IA confirmó las compilaciones usando capturas de pantalla, sorprendiendo al usuario con sus capacidades avanzadas.

game development code generation AI programming Qwen

RESEARCH↑ trendingReddit r/LocalLLaMA·11/4/2026

DFlash speculative decoding on Apple Silicon : 85 tok/s, 3.3x on Qwen3.5-9B (MLX, M5 Max)

Este contenido describe una implementación nativa de DFlash en MLX para Apple Silicon, que acelera significativamente la generación de tokens en modelos Qwen. La técnica de decodificación especulativa logra mejoras de velocidad de hasta 3.3x, manteniendo la calidad de salida idéntica.

apple-silicon MLX Qwen LLM performance

DOC↑ trendingReddit r/LocalLLaMA·6/5/2026

2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints

Este contenido detalla cómo lograr una inferencia 2.5 veces más rápida con Qwen 3.6 27B usando el soporte MTP en llama.cpp, alcanzando 28 tok/s en un M2 Max. Proporciona archivos GGUF convertidos para descargar, adecuados para codificación agéntica local con 262k de contexto en 48GB.

LLM optimization llama.cpp GGUF Qwen

ARTICLE↑ trendingReddit r/LocalLLaMA·16/4/2026

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.

Qwen 3.6 ahora incluye una nueva bandera `preserve_thinking` que soluciona el problema de invalidación de la caché KV al mantener el contexto de razonamiento completo del modelo. Esta funcionalidad es especialmente beneficiosa para escenarios de agentes, mejorando la consistencia de las decisiones y optimizando el consumo de tokens y la utilización de la caché KV.

large language models model optimization Qwen AI agents

PSA: Qwen3.6 ships with preserve_thinking. Make sure you have it on.

NEWS↑ trendingReddit r/LocalLLaMA·22/4/2026

Qwen 3.6 27B is out

Se ha lanzado el modelo Qwen 3.6 27B, una nueva incorporación en el campo de los grandes modelos de lenguaje. El anuncio enlaza a la página oficial del modelo en Hugging Face para obtener más detalles.

Qwen model release Large Language Model LLM

ARTICLE↑ trendingReddit r/LocalLLaMA·hace 25d

Used over a million tokens in three separate sessions to test Qwen 3.6 35b (new Multi-token Prediction version)

El autor probó el modelo Qwen 3.6 35b MTP localmente, notando un aumento de 1.5x en la velocidad. Exploró el uso de una gran ventana de contexto, alcanzando 300k tokens con potencial para más.

LLMs Benchmarking Local AI Qwen

DOC↑ trendingReddit r/LocalLLaMA·11/4/2026

Run Qwen3.5-397B-A13B with vLLM and 8xR9700

Este documento detalla la ejecución optimizada del modelo Qwen3.5-397B-A17B-MXFP4 utilizando vLLM en GPUs RDNA4, como 8xR9700. Incluye un Dockerfile con parches de Triton e instrucciones para descargar el modelo y lanzar el contenedor de inferencia.

Docker GPU MXFP4 Qwen

NEWS↑ trendingReddit r/LocalLLaMA·17/4/2026

Qwen3.6-35B-A3B Uncensored Aggressive is out with K_P quants!

Se ha lanzado la variante "Aggressive" del Qwen3.6-35B-A3B, una versión sin censura del modelo original, sin rechazos y con cero pérdida de capacidad. Esta versión incluye varias cuantificaciones K_P y soporte de visión.

uncensored AI quantization Qwen model release

DOC↑ trendingReddit r/LocalLLaMA·6/5/2026

Get faster qwen 3.6 27b

El contenido detalla cómo lograr un rendimiento más rápido con el modelo Qwen 3.6 27B usando llama.cpp en una GPU 3090. Incluye pasos para aplicar un commit específico y comandos de configuración de `llama-server` para alcanzar 50 t/s con 100k de contexto.

llama.cpp AI optimization GPU performance GGUF

ARTICLE↑ trendingReddit r/LocalLLaMA·12/4/2026

MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!

El autor compara los modelos GGUF MiniMax-M2.7 y Qwen3.5-122B-A10B para descarga completa local en un equipo con 96GB de VRAM. Para sus propósitos, prefiere Qwen3.5-122B, a pesar de que MiniMax está más cuantificado, destacando las compensaciones en el rendimiento de la inferencia local de LLMs.

VRAM GGUF MiniMax Qwen

MiniMax-M2.7 vs Qwen3.5-122B-A10B for 96GB VRAM full offload?!

ARTICLE↑ trendingReddit r/LocalLLaMA·17/4/2026

Qwen 3.6 35B crushes Gemma 4 26B on my tests

El autor realizó una evaluación personal donde Qwen 3.6 35B superó a Gemma 4 26B en pruebas que evalúan capacidades agenticas, codificación, síntesis de imagen a texto, seguimiento de instrucciones y razonamiento. Qwen corrigió más problemas, tuvo menos regresiones y completó las pruebas en menos tiempo, mostrando un mejor rendimiento general.

LLM benchmarking Gemma Agentic AI Qwen

CASE↑ trendingReddit r/LocalLLaMA·23/4/2026

Qwen 3.6 is actually useful for vibe-coding, and way cheaper than Claude

El autor implementó con éxito modelos Qwen 3.6 (27B y 35B) localmente para codificación, demostrando un rendimiento comparable al de Claude Code. Esta configuración local redujo drásticamente los costos, de un estimado de $142 en llamadas a la API a menos de $4 en electricidad en 8 horas.

GPU Claude local inference Cost Savings

Qwen 3.6 is actually useful for vibe-coding, and way cheaper than Claude

RESEARCH↑ trendingReddit r/LocalLLaMA·6/5/2026

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)

El contenido compara la calidad de diferentes cuantizaciones del modelo Qwen 3.6 27B mediante una prueba de ajedrez para identificar la mejor opción para configuraciones con 16 GB de VRAM. La prueba evalúa la capacidad de los modelos para seguir el estado del tablero y generar imágenes SVG correctas.

VRAM Benchmarking quantization model quality

Quality comparison between Qwen 3.6 27B quantizations (BF16, Q8_0, Q6_K, Q5_K_XL, Q4_K_XL, IQ4_XS, IQ3_XXS,...)

DOC↑ trendingReddit r/LocalLLaMA·15/4/2026

Qwen3.5-35B running well on RTX4060 Ti 16GB at 60 tok/s

El autor comparte una optimización exitosa para ejecutar el modelo Qwen3.5-35B-A3B-UD-Q4_K_L en una RTX 4060 Ti 16GB utilizando llama.cpp, logrando 40-60 tokens/s con 64k de contexto. La publicación detalla la configuración `models.ini` y el comando de inicio del servidor para replicar este rendimiento.

Hardware Acceleration AI Model Optimization llama.cpp local inference

CASE↑ trendingReddit r/LocalLLaMA·18/4/2026

qwen3.6 performance jump is real, just make sure you have it properly configured

Un usuario informa que Qwen 3.6 muestra un salto de rendimiento significativo, demostrando ser capaz para cargas de trabajo típicamente manejadas por Opus y Codex, aunque no a su mismo nivel. El usuario resalta su utilidad y velocidad cuando se configura correctamente con `preserve_thinking` en un M5 Max con ajustes específicos.

LLMs AI hardware local inference AI performance

qwen3.6 performance jump is real, just make sure you have it properly configured

DOC↑ trendingReddit r/LocalLLaMA·hace 27d

llama.cpp docker images to run MTP models

Este contenido describe la creación de imágenes Docker para `llama.cpp` con el fin de simplificar la ejecución de modelos MTP, tras numerosas mejoras y correcciones de errores. También señala que Unsloth ha lanzado nuevos modelos MTP para Qwen 3.6, lo que hace que las versiones anteriores queden obsoletas.

AI models Docker llama.cpp Qwen