← heapsort-ai

local inference

16 items

CASE↑ trendingReddit r/LocalLLaMA·23/4/2026

Qwen 3.6 27B is a BEAST

Un usuario informa que Qwen 3.6 27B, ejecutado localmente en una computadora portátil, sobresale en tareas de ciencia de datos como llamadas a herramientas y depuración de transformación de datos. Su rendimiento fue tan impresionante que están considerando cancelar las suscripciones a la nube, encontrándolo perfecto para trabajos con pyspark/python.

56
ARTICLE↑ trendingReddit r/LocalLLaMA·22/4/2026

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried

El autor revisó un antiguo proyecto de pipeline ASR->LLM->TTS local en tiempo real y quedó gratamente sorprendido con Qwen3 TTS. Tras experimentar, logró que el modelo Qwen3 TTS funcionara de forma fiable para streaming local, elogiando su expresividad y arquitectura adecuada.

Qwen3 TTS is seriously underrated - I got it running locally in real-time and it's one of the most expressive open TTS models I've tried
43
CASE↑ trendingReddit r/LocalLLaMA·18/4/2026

qwen3.6 performance jump is real, just make sure you have it properly configured

Un usuario informa que Qwen 3.6 muestra un salto de rendimiento significativo, demostrando ser capaz para cargas de trabajo típicamente manejadas por Opus y Codex, aunque no a su mismo nivel. El usuario resalta su utilidad y velocidad cuando se configura correctamente con `preserve_thinking` en un M5 Max con ajustes específicos.

qwen3.6 performance jump is real, just make sure you have it properly configured
42
ARTICLE↑ trendingReddit r/LocalLLaMA·19/4/2026

Is anyone getting real coding work done with Qwen3.6-35B-A3B-UD-Q4_K_M on a 32GB Mac in opencode, claude code or similar?

Un usuario intenta realizar tareas de codificación con Qwen3.6-35B en un Macbook Pro M2 de 32GB, enfrentando problemas de agotamiento de memoria y gestión de la ventana de contexto. Aunque el modelo identifica la esencia de un error, no logra implementar la solución debido a la pérdida de información crucial durante la compactación del contexto.

39
ARTICLE↑ trendingReddit r/LocalLLaMA·15/4/2026

Gemma4 26b & E4B are crazy good, and replaced Qwen for me!

El usuario describe su configuración de IA anterior antes de cambiar a Gemma4, detallando el hardware (GPUs y RAM) y los modelos Qwen específicos utilizados para diversas tareas. Explica las funciones de las diferentes versiones de Qwen (3.5 4B, 30b, 27b, 80B, 122b) para enrutamiento semántico, chat general, razonamiento, generación de código y recuperación de conocimiento, según sus necesidades de cuantificación y contexto.

36
NEWSDEV.to AI·19/4/2026

Gemini App Launches on Mac

Google ha lanzado la aplicación Gemini para macOS, lo que representa su primera gran expansión de escritorio y un cambio estratégico hacia la ejecución local de IA. Esto permite a los usuarios ejecutar modelos Gemini directamente en sus máquinas para una inferencia local más rápida, una menor dependencia de la nube y una mayor privacidad y rendimiento.

31
CASEDEV.to AI·16/4/2026

The Free Tier Wars 2026: Gemini vs Claude vs Ollama — Which One Actually Saves You Money?

El artículo detalla un experimento de 90 días realizado por Ultra Lab comparando el rendimiento y costo de Google Gemini 2.5 Flash (gratis), Claude Opus 4.6 (plan Pro) y Ollama con ultralab:7b (inferencia local). Su objetivo es revelar qué stack de LLM ofrece el mejor valor para diversas tareas de producción, presentando datos reales.

27