POV Qwen 3.5 with thinking
Este contenido aborda el comportamiento del modelo de IA Qwen 3.5, que frecuentemente se queda atascado en bucles de pensamiento. El autor hace una observación breve e informal sobre esta característica del modelo.

Este contenido aborda el comportamiento del modelo de IA Qwen 3.5, que frecuentemente se queda atascado en bucles de pensamiento. El autor hace una observación breve e informal sobre esta característica del modelo.

Un usuario expresa confusión sobre cómo un modelo denso de 27B puede ser superior a un modelo MoE de 397B, mencionando Qwen, y cuestiona la utilidad de los expertos adicionales.

El autor considera a Qwen 3.6 el primer modelo local que realmente vale la pena, a diferencia de experiencias anteriores donde los modelos eran débiles o requerían mucho esfuerzo. Funcionando en un sistema con 5090 + 4090, el modelo Q8 ofrece 260k de contexto y 170 tokens/segundo, siendo eficaz para tareas de codificación como UI XML y C++ embebido.
El usuario elogia a Qwen3.6 OpenCode como un modelo local "increíble" para tareas de codificación complejas, destacando su eficacia en la implementación de RLS en una base de código multilingüe. Aunque no es perfecto, su capacidad para iterar sobre errores de compilación lo convierte en una alternativa viable a modelos como Claude Code para uso diario.
Un usuario relata su experiencia con el modelo Qwen3.6, que construyó y probó con éxito un juego de defensa de torres, demostrando la capacidad de identificar y corregir sus propios errores. La IA confirmó las compilaciones usando capturas de pantalla, sorprendiendo al usuario con sus capacidades avanzadas.

Este contenido describe una implementación nativa de DFlash en MLX para Apple Silicon, que acelera significativamente la generación de tokens en modelos Qwen. La técnica de decodificación especulativa logra mejoras de velocidad de hasta 3.3x, manteniendo la calidad de salida idéntica.
Este contenido detalla cómo lograr una inferencia 2.5 veces más rápida con Qwen 3.6 27B usando el soporte MTP en llama.cpp, alcanzando 28 tok/s en un M2 Max. Proporciona archivos GGUF convertidos para descargar, adecuados para codificación agéntica local con 262k de contexto en 48GB.
Qwen 3.6 ahora incluye una nueva bandera `preserve_thinking` que soluciona el problema de invalidación de la caché KV al mantener el contexto de razonamiento completo del modelo. Esta funcionalidad es especialmente beneficiosa para escenarios de agentes, mejorando la consistencia de las decisiones y optimizando el consumo de tokens y la utilización de la caché KV.

Se ha lanzado el modelo Qwen 3.6 27B, una nueva incorporación en el campo de los grandes modelos de lenguaje. El anuncio enlaza a la página oficial del modelo en Hugging Face para obtener más detalles.
El autor probó el modelo Qwen 3.6 35b MTP localmente, notando un aumento de 1.5x en la velocidad. Exploró el uso de una gran ventana de contexto, alcanzando 300k tokens con potencial para más.
Este documento detalla la ejecución optimizada del modelo Qwen3.5-397B-A17B-MXFP4 utilizando vLLM en GPUs RDNA4, como 8xR9700. Incluye un Dockerfile con parches de Triton e instrucciones para descargar el modelo y lanzar el contenedor de inferencia.
Se ha lanzado la variante "Aggressive" del Qwen3.6-35B-A3B, una versión sin censura del modelo original, sin rechazos y con cero pérdida de capacidad. Esta versión incluye varias cuantificaciones K_P y soporte de visión.
El contenido detalla cómo lograr un rendimiento más rápido con el modelo Qwen 3.6 27B usando llama.cpp en una GPU 3090. Incluye pasos para aplicar un commit específico y comandos de configuración de `llama-server` para alcanzar 50 t/s con 100k de contexto.
El autor compara los modelos GGUF MiniMax-M2.7 y Qwen3.5-122B-A10B para descarga completa local en un equipo con 96GB de VRAM. Para sus propósitos, prefiere Qwen3.5-122B, a pesar de que MiniMax está más cuantificado, destacando las compensaciones en el rendimiento de la inferencia local de LLMs.

El autor realizó una evaluación personal donde Qwen 3.6 35B superó a Gemma 4 26B en pruebas que evalúan capacidades agenticas, codificación, síntesis de imagen a texto, seguimiento de instrucciones y razonamiento. Qwen corrigió más problemas, tuvo menos regresiones y completó las pruebas en menos tiempo, mostrando un mejor rendimiento general.
El autor implementó con éxito modelos Qwen 3.6 (27B y 35B) localmente para codificación, demostrando un rendimiento comparable al de Claude Code. Esta configuración local redujo drásticamente los costos, de un estimado de $142 en llamadas a la API a menos de $4 en electricidad en 8 horas.

El contenido compara la calidad de diferentes cuantizaciones del modelo Qwen 3.6 27B mediante una prueba de ajedrez para identificar la mejor opción para configuraciones con 16 GB de VRAM. La prueba evalúa la capacidad de los modelos para seguir el estado del tablero y generar imágenes SVG correctas.

El autor comparte una optimización exitosa para ejecutar el modelo Qwen3.5-35B-A3B-UD-Q4_K_L en una RTX 4060 Ti 16GB utilizando llama.cpp, logrando 40-60 tokens/s con 64k de contexto. La publicación detalla la configuración `models.ini` y el comando de inicio del servidor para replicar este rendimiento.
Un usuario informa que Qwen 3.6 muestra un salto de rendimiento significativo, demostrando ser capaz para cargas de trabajo típicamente manejadas por Opus y Codex, aunque no a su mismo nivel. El usuario resalta su utilidad y velocidad cuando se configura correctamente con `preserve_thinking` en un M5 Max con ajustes específicos.

Este contenido describe la creación de imágenes Docker para `llama.cpp` con el fin de simplificar la ejecución de modelos MTP, tras numerosas mejoras y correcciones de errores. También señala que Unsloth ha lanzado nuevos modelos MTP para Qwen 3.6, lo que hace que las versiones anteriores queden obsoletas.