← heapsort-ai

performance

95 items

ARTICLE↑ trendingHacker News (AI)·hace 1d

Show HN: Web Speed – A shared web-map registry for AI agents (MCP, open source)

El autor presenta Web Speed, una herramienta de código abierto que analiza páginas web HTML y las convierte en sitemaps fácilmente legibles para agentes de IA, haciéndolos más rápidos y económicos. El proyecto incluye una caché global de sitemaps para acelerar aún más a los agentes, actualmente accesible solo a través de la versión de pago de la API.

51
RESEARCH↑ trendingReddit r/LocalLLaMA·1/5/2026

nvidia/Gemma-4-26B-A4B-NVFP4

El contenido confirma el rendimiento del modelo Gemma-4-26B-A4B-NVFP4 en una GPU NVIDIA 5090, detallando el uso de 18.8GB de VRAM y una capacidad de contexto de 50k. También presenta puntuaciones de referencia para la versión NVFP4 en comparación con la precisión total en varias métricas como GPQA, AIME y MMLU Pro.

nvidia/Gemma-4-26B-A4B-NVFP4
42
NEWS↑ trendingReddit r/LocalLLaMA·4/5/2026

Llama.cpp MTP support now in beta!

El soporte MTP para llama.cpp ya está en fase beta, con soporte inicial para Qwen3.5 MTP y potencial de fusión en breve. Se espera que esta mejora, junto con el soporte tensor-parallel, elimine las brechas de rendimiento entre llama.cpp y vLLM, especialmente en la velocidad de generación de tokens.

Llama.cpp MTP support now in beta!
42
ARTICLE↑ trendingReddit r/LocalLLaMA·30/4/2026

Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix)

Esta actualización detalla la ejecución de Qwen3.6-27B en una sola RTX 3090, logrando un contexto de ~218K y llamadas de herramientas estables a 50-66 TPS. Se resolvió un problema crítico de memoria con salidas de herramientas largas al corregir una desviación de anclaje en un parche Genesis (PN12) para vLLM.

42
RESEARCH↑ trendingReddit r/LocalLLaMA·22/4/2026

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

Los modelos de IA densos superan actualmente a los MoE en general, pero los MoE están alcanzando rápidamente, particularmente en los benchmarks de codificación. Para usuarios con 24GB de VRAM y necesidad de grandes ventanas de contexto, el MoE se está convirtiendo en una opción más atractiva.

Dense vs. MoE gap is shrinking fast with the 3.6-27B release
41
ARTICLE↑ trendingReddit r/LocalLLaMA·22/4/2026

Is a high-end private local LLM setup worth it?

El usuario se pregunta si vale la pena una configuración local de LLM de gama alta, mencionando los altos costos, las dificultades de configuración y las diferencias de rendimiento con servicios en la nube como Claude y GPT. Está dispuesto a invertir en hardware potente, pero quiere saber si realmente puede igualar la velocidad y la inteligencia de los principales modelos comerciales.

41
ARTICLE↑ trendingReddit r/LocalLLaMA·7/5/2026

Need advice on hardware purchasing decision: RTX 5090 vs. M5 Max 128GB for agentic software development

El usuario busca consejo sobre la elección entre una RTX 5090 y un M5 Max 128GB para el desarrollo de software agéntico con Qwen3.6 27B localmente. La RTX 5090 ofrece el triple de velocidad, mientras que el M5 Max proporciona el cuádruple de memoria, lo que plantea una disyuntiva entre la velocidad de generación de código y una mayor capacidad de contexto.

41
RESEARCH↑ trendingReddit r/LocalLLaMA·19/4/2026

QWEN3.6 + ik_llama is fast af

Un usuario informó haber ejecutado el modelo Qwen3.6 + ik_llama a más de 50 tokens/segundo con una ventana de contexto de 200k en 16GB de VRAM y 32GB de RAM. Esto representa un hito de rendimiento significativo para los grandes modelos de lenguaje.

QWEN3.6 + ik_llama is fast af
38