← heapsort-ai

LLMs

720 items

ARTICLEDEV.to AI·22/4/2026

Your LLM Isn't the Problem. Your Pipeline Is.

El artículo detalla un problema arquitectónico común en el etiquetado de productos de e-commerce con LLMs, donde las llamadas individuales, aunque correctas, carecen de memoria, lo que fragmenta la taxonomía. El problema no es el LLM, sino que la pipeline no proporciona un vocabulario de etiquetas consistente como entrada.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·22/4/2026

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

Los modelos de IA densos superan actualmente a los MoE en general, pero los MoE están alcanzando rápidamente, particularmente en los benchmarks de codificación. Para usuarios con 24GB de VRAM y necesidad de grandes ventanas de contexto, el MoE se está convirtiendo en una opción más atractiva.

Dense vs. MoE gap is shrinking fast with the 3.6-27B release
41
ARTICLE↑ trendingReddit r/LocalLLaMA·16/4/2026

Gemma 4 31b 3D geometry

El autor expresa gran satisfacción con la calidad de Gemma 4, destacando su capacidad de codificación y adaptabilidad en conversaciones y razonamiento. Una prueba de generación de modelos 3D a partir de una imagen de un coche de F1 demostró que Gemma superó significativamente a modelos como Claude Sonnet, Gemini Pro y ChatGPT, que presentaron fallos notables.

Gemma 4 31b 3D geometry
41
NEWS↑ trendingReddit r/LocalLLaMA·20/4/2026

ubergarm/Kimi-K2.6-GGUF Q4_X now available

El usuario ubergarm/VoidAlchemy anunció la disponibilidad de la versión cuantificada "Q4_X" del modelo Kimi-K2.6-GGUF, agradeciendo a jukofyork y AesSedai por sus consejos. Este modelo requiere aproximadamente 584GB de RAM+VRAM y es compatible con ik_llama.cpp y mainline llama.cpp; se planean cuantificaciones más pequeñas e información sobre imatrix próximamente.

ubergarm/Kimi-K2.6-GGUF Q4_X now available
41
ARTICLE↑ trendingReddit r/LocalLLaMA·9/4/2026

The Mythos Preview "Safety" Gaslight: Anthropic is just hiding insane compute costs. Open models are already doing this.

O texto argumenta que a narrativa de "risco de segurança" da Anthropic para seu modelo Claude Mythos Preview é uma tática para esconder custos de computação astronômicos. Alega-se que a capacidade do modelo de encontrar zero-days foi alcançada por meio de força bruta e uso de ferramentas extensivos e caros, não por perigo inerente, caracterizando-o como um custo de API inviável disfarçado de campanha de relações públicas.

41
RESEARCH↑ trendingReddit r/LocalLLaMA·17/4/2026

Qwen3.6 GGUF Benchmarks

Este contenido presenta los benchmarks de rendimiento KLD para los quants GGUF de Qwen3.6-35B-A3B de Unsloth, destacando su eficiencia en relación al espacio en disco. También aclara que las frecuentes actualizaciones de GGUF suelen deberse a correcciones de errores externos o mejoras oficiales, y no a errores internos de Unsloth.

Qwen3.6 GGUF Benchmarks
41
ARTICLE↑ trendingReddit r/LocalLLaMA·7/5/2026

Need advice on hardware purchasing decision: RTX 5090 vs. M5 Max 128GB for agentic software development

El usuario busca consejo sobre la elección entre una RTX 5090 y un M5 Max 128GB para el desarrollo de software agéntico con Qwen3.6 27B localmente. La RTX 5090 ofrece el triple de velocidad, mientras que el M5 Max proporciona el cuádruple de memoria, lo que plantea una disyuntiva entre la velocidad de generación de código y una mayor capacidad de contexto.

41
ARTICLE↑ trendingReddit r/LocalLLaMA·9/4/2026

16 GB VRAM users, what model do we like best now?

Um usuário com 16 GB de VRAM compartilha sua experiência positiva com o modelo Qwen 3.5 27b em quants IQ3 em uma RTX 4080, alcançando boa velocidade e contexto. Ele discute os desafios de otimizar modelos de IA localmente com essa quantidade de VRAM, ponderando entre qualidade e velocidade ao lidar com diferentes níveis de quantização.

41
ARTICLE↑ trendingReddit r/LocalLLaMA·27/4/2026

Guys this is so fun!

Un usuario expresa su entusiasmo por ejecutar varios modelos de IA como Qwen y Llama localmente en su MacBook Air y una estación de trabajo de IA con una RTX Pro 6000 Blackwell, utilizando herramientas como LM Studio y LM Link.

41
ARTICLE↑ trendingReddit r/LocalLLaMA·21/4/2026

2x 512gb ram M3 Ultra mac studios

Un usuario con dos Mac Studios M3 Ultra de gama alta (512 GB de RAM cada uno, $25k en hardware) está probando modelos LLM como Deepseek y GLM, y pide a la comunidad sugerencias sobre qué más cargar. Está solucionando problemas de backend y esperando optimizaciones para Kimi 2.6.

2x 512gb ram M3 Ultra mac studios
41
RESEARCH↑ trendingReddit r/LocalLLaMA·23/4/2026

Qwen 3.6 27B Makes Huge Gains in Agency on Artificial Analysis - Ties with Sonnet 4.6

Qwen 3.6 27B ha logrado grandes avances, igualando a Sonnet 4.6 en el Índice Agéntico de Artificial Analysis y superando a otros modelos destacados. El entrenamiento del modelo parece enfocado en el uso agéntico, mostrando un rendimiento sorprendente para su tamaño, a pesar de las métricas cuestionables del Índice de Codificación.

Qwen 3.6 27B Makes Huge Gains in Agency on Artificial Analysis - Ties with Sonnet 4.6
41
ARTICLEDEV.to AI·22/4/2026

We Built a 31-Agent AI Team That Hires Itself, Critiques Itself, and Dreams

Este informe de ingeniería detalla un equipo de IA auto-evolutivo de 31 agentes, construido sobre Claude Code, que incorpora una capa cognitiva paralela, un pipeline de contratación dinámica y verificación robusta. Critica los frameworks de agentes comunes, destacando la necesidad de especialización, verificación cruzada, calibración de memoria y auto-mejora en sistemas multi-agentes.

40
ARTICLE↑ trendingReddit r/LocalLLaMA·19/4/2026

Is anyone getting real coding work done with Qwen3.6-35B-A3B-UD-Q4_K_M on a 32GB Mac in opencode, claude code or similar?

Un usuario intenta realizar tareas de codificación con Qwen3.6-35B en un Macbook Pro M2 de 32GB, enfrentando problemas de agotamiento de memoria y gestión de la ventana de contexto. Aunque el modelo identifica la esencia de un error, no logra implementar la solución debido a la pérdida de información crucial durante la compactación del contexto.

39
ARTICLE↑ trendingReddit r/LocalLLaMA·19/4/2026

Switching from Opus 4.7 to Qwen-35B-A3B

Un usuario está pensando en cambiar de Opus 4.7 a Qwen-35B-A3B como su agente diario de codificación y busca experiencias de la comunidad. Se pregunta si Qwen-35B-A3B será suficiente para la mayoría de las tareas, reconociendo que Opus podría tener una ventaja en el razonamiento complejo, ejecutándolo en un M5 Max 128GB.

39
ARTICLEDEV.to AI·23/4/2026

I Built a Local AI VRAM Calculator & GPU Planner (Beta)

El autor ha lanzado una nueva herramienta beta, el "Local AI VRAM Calculator & GPU Planner", para ayudar a determinar los requisitos de GPU y VRAM para ejecutar LLMs localmente. Esta herramienta busca hacer visibles las compensaciones de hardware para diferentes cargas de trabajo y niveles de cuantificación antes de invertir en componentes.

39