← heapsort-ai

AI performance

27 items

ARTICLE↑ trendingReddit r/LocalLLaMA·15/4/2026

Hot Experts in your VRAM! Dynamic expert cache in llama.cpp for 27% faster CPU +GPU token generation with Qwen3.5-122B-A10B compared to layer-based single-GPU partial offload

Este artículo detalla una nueva estrategia de caché de expertos dinámicos en llama.cpp para acelerar la generación de tokens en grandes modelos MoE como Qwen3.5-122B-A10B. El enfoque carga los expertos más utilizados en la VRAM, lo que resulta en una generación de tokens hasta un 26,8% más rápida en comparación con la descarga parcial basada en capas.

43
CASE↑ trendingReddit r/LocalLLaMA·18/4/2026

qwen3.6 performance jump is real, just make sure you have it properly configured

Un usuario informa que Qwen 3.6 muestra un salto de rendimiento significativo, demostrando ser capaz para cargas de trabajo típicamente manejadas por Opus y Codex, aunque no a su mismo nivel. El usuario resalta su utilidad y velocidad cuando se configura correctamente con `preserve_thinking` en un M5 Max con ajustes específicos.

qwen3.6 performance jump is real, just make sure you have it properly configured
42
ARTICLE↑ trendingReddit r/LocalLLaMA·19/4/2026

Is anyone getting real coding work done with Qwen3.6-35B-A3B-UD-Q4_K_M on a 32GB Mac in opencode, claude code or similar?

Un usuario intenta realizar tareas de codificación con Qwen3.6-35B en un Macbook Pro M2 de 32GB, enfrentando problemas de agotamiento de memoria y gestión de la ventana de contexto. Aunque el modelo identifica la esencia de un error, no logra implementar la solución debido a la pérdida de información crucial durante la compactación del contexto.

39
ARTICLE↑ trendingReddit r/LocalLLaMA·21/4/2026

An actual example of "If you dont run it, you dont own it" and Gemma 4 beats both Chat GPT and Gemini Chat

El autor comparte su experiencia utilizando varios modelos de IA (GPT OOS 120B, Qwen 3 Max, Chat GPT 4o) para traducir una novela china, enfrentando desafíos con la consistencia de los nombres y la censura. Chat GPT 4o fue inicialmente el mejor en precisión y calidad de traducción, aunque otros modelos mostraron degradación o filtrado con el tiempo.

35
ARTICLEDEV.to AI·hace 3d

<think>

Este contenido describe los requisitos para un artículo técnico sobre el análisis del rendimiento y la fijación de precios de modelos de IA, centrándose en métricas como TTFT y tokens/segundo. Especifica la inclusión de datos exactos de precios y modelos, regiones de prueba y ejemplos de código para una API global, dirigido a una audiencia de ingenieros de backend.

30
RESEARCHDEV.to AI·10/5/2026

Diffusion models approach AR quality and improve inference speed

Los modelos de lenguaje de difusión están logrando ganancias significativas de rendimiento y reduciendo la brecha con los decodificadores autorregresivos en la velocidad de inferencia. Los nuevos Modelos de Lenguaje de Difusión Introspectivos (I-DLM) abordan problemas previos de consistencia introspectiva y bucles de muestreo ineficientes, mejorando tanto la calidad como la latencia.

28
RESEARCHarXiv CS.AI·4/5/2026

Are Tools All We Need? Unveiling the Tool-Use Tax in LLM Agents

Esta investigación desafía la suposición de que el razonamiento con herramientas siempre mejora el rendimiento de los LLMs, demostrando que puede ser superado por CoT nativo debido a un "impuesto por uso de herramientas", especialmente con distractores semánticos. Se propone un marco de intervención factorizado para analizar esto y se introduce G-STEP como mitigación parcial para errores inducidos por el protocolo.

28
ARTICLEDEV.to AI·hace 13d

AI Agents Fail 70%. The Replacement Story Is A Lie.

Estudios independientes recientes desmienten el mito de que los agentes de IA reemplazarán empleos pronto, revelando que incluso los mejores agentes completan solo alrededor del 30% de las tareas de oficina de forma autónoma. Investigaciones de Carnegie Mellon, Huawei y Salesforce indican altas tasas de fallas, a menudo involucrando la fabricación de datos o la incapacidad de manejar tareas complejas y de múltiples pasos de manera segura y efectiva.

27
RESEARCHDEV.to AI·8/5/2026

Micro LM delivers large‑model quality on device

Un nuevo estudio presenta los Micro Language Models (μLMs), modelos ultracompactos (8M–30M parámetros) que ofrecen la calidad de modelos grandes en dispositivos. Este enfoque resuelve el dilema entre respuestas rápidas y completas en asistentes de borde, al iniciar las respuestas localmente y reducir la latencia de los modelos en la nube.

27