performance

95 items

ARTICLE↑ trendingHacker News (AI)·hace 1d

Show HN: Web Speed – A shared web-map registry for AI agents (MCP, open source)

El autor presenta Web Speed, una herramienta de código abierto que analiza páginas web HTML y las convierte en sitemaps fácilmente legibles para agentes de IA, haciéndolos más rápidos y económicos. El proyecto incluye una caché global de sitemaps para acelerar aún más a los agentes, actualmente accesible solo a través de la versión de pago de la API.

Open Source sitemaps performance web parsing

ARTICLEDEV.to AI·23/4/2026

Stop Using sleep() in Your Agent Loops: Event-Driven AI Agent Scheduling

El artículo critica el uso común de `sleep()` en bucles de agentes de IA, señalando sus costos en términos de presupuesto de API, alta latencia y enmascaramiento de fallos. Propone la programación basada en eventos como una alternativa superior para optimizar costos y rendimiento a escala.

Optimization performance developer tools scheduling

ARTICLE↑ trendingReddit r/LocalLLaMA·hace 25d

I have (even faster) DeepSeek V4 Pro at home

El autor logró ejecutar el modelo DeepSeek V4 Pro aún más rápido en su hardware doméstico utilizando ktransformers. Detalla los ajustes de hardware y presenta resultados de referencia de rendimiento con una profundidad de contexto creciente.

DeepSeek Benchmarking hardware performance

ARTICLE↑ trendingReddit r/LocalLLaMA·hace 25d

Used over a million tokens in three separate sessions to test Qwen 3.6 35b (new Multi-token Prediction version)

El autor probó el modelo Qwen 3.6 35b MTP localmente, notando un aumento de 1.5x en la velocidad. Exploró el uso de una gran ventana de contexto, alcanzando 300k tokens con potencial para más.

LLMs Benchmarking Local AI Qwen

NEWS↑ trendingReddit r/LocalLLaMA·27/4/2026

Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090

Luce DFlash presenta un puerto GGUF de decodificación especulativa DFlash para Qwen3.6-27B, logrando casi el doble de rendimiento en una única RTX 3090. Este stack C++/CUDA independiente, disponible como proyecto de código abierto con licencia MIT, mejora significativamente el rendimiento de los LLM en hardware de consumo.

Open Source Optimization performance Speculative Decoding

Luce DFlash: Qwen3.6-27B at up to 2x throughput on a single RTX 3090

NEWS↑ trendingReddit r/LocalLLaMA·9/4/2026

Gemma 4 on Llama.cpp should be stable now

A integração de correções no Llama.cpp resolveu problemas conhecidos do Gemma 4, tornando-o estável para uso. O conteúdo oferece dicas de execução, como uso de `--chat-template-file` e otimização de cache, além de alertar contra o uso do CUDA 13.2.

Technical Tips Gemma 4 llama.cpp performance

RESEARCH↑ trendingReddit r/LocalLLaMA·1/5/2026

nvidia/Gemma-4-26B-A4B-NVFP4

El contenido confirma el rendimiento del modelo Gemma-4-26B-A4B-NVFP4 en una GPU NVIDIA 5090, detallando el uso de 18.8GB de VRAM y una capacidad de contexto de 50k. También presenta puntuaciones de referencia para la versión NVFP4 en comparación con la precisión total en varias métricas como GPQA, AIME y MMLU Pro.

AI models GPU Benchmarking NVIDIA

RESEARCH↑ trendingReddit r/LocalLLaMA·16/4/2026

Qwen 3.6 35B A3B, RTX 5090 32GB, 187t/s, Q5 K S, 120K Context Size, Thinking Mode Off, Temp 0.1

El contenido detalla el rendimiento del modelo Qwen 3.6 35B A3B, alcanzando 187 tokens por segundo en una GPU RTX 5090 de 32GB. Destaca el soporte para un tamaño de contexto de 120K, utilizando cuantificación Q5 K S y una temperatura de 0.1.

inference AI hardware benchmark performance

Qwen 3.6 35B A3B, RTX 5090 32GB, 187t/s, Q5 K S, 120K Context Size, Thinking Mode Off, Temp 0.1

NEWS↑ trendingReddit r/LocalLLaMA·19/4/2026

llama.cpp speculative checkpointing was merged

La funcionalidad de "speculative checkpointing" se ha fusionado en llama.cpp, ofreciendo posibles mejoras de velocidad. Aunque algunos prompts, como para codificación con parámetros optimizados, pueden ver un aumento de velocidad del 0% al 50%, otros podrían no beneficiarse debido a una baja aceptación del borrador.

Open Source llama.cpp speculative-checkpointing AI inference

NEWS↑ trendingReddit r/LocalLLaMA·4/5/2026

Llama.cpp MTP support now in beta!

El soporte MTP para llama.cpp ya está en fase beta, con soporte inicial para Qwen3.5 MTP y potencial de fusión en breve. Se espera que esta mejora, junto con el soporte tensor-parallel, elimine las brechas de rendimiento entre llama.cpp y vLLM, especialmente en la velocidad de generación de tokens.

AI models Qwen3.5 MTP llama.cpp

ARTICLE↑ trendingReddit r/LocalLLaMA·30/4/2026

Follow-up: Qwen3.6-27B on 1× RTX 3090 — pushing to ~218K context + ~50–66 TPS, tool calls now stable (PN12 fix)

Esta actualización detalla la ejecución de Qwen3.6-27B en una sola RTX 3090, logrando un contexto de ~218K y llamadas de herramientas estables a 50-66 TPS. Se resolvió un problema crítico de memoria con salidas de herramientas largas al corregir una desviación de anclaje en un parche Genesis (PN12) para vLLM.

Optimization hardware performance vLLM

ARTICLE↑ trendingReddit r/LocalLLaMA·23/4/2026

An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026

El título describe una optimización impresionante para el modelo Qwen3.6–27B, logrando 85 TPS y 125K de contexto con capacidades de visión en una sola RTX 3090. Esto es un logro técnico significativo para la implementación eficiente de LLMs.

Optimization multimodal AI GPU large language models

An Overnight Stack for Qwen3.6–27B: 85 TPS, 125K Context, Vision — on One RTX 3090 | by Wasif Basharat | Apr, 2026

RESEARCH↑ trendingReddit r/LocalLLaMA·22/4/2026

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

Los modelos de IA densos superan actualmente a los MoE en general, pero los MoE están alcanzando rápidamente, particularmente en los benchmarks de codificación. Para usuarios con 24GB de VRAM y necesidad de grandes ventanas de contexto, el MoE se está convirtiendo en una opción más atractiva.

AI models LLMs Benchmarks MoE

Dense vs. MoE gap is shrinking fast with the 3.6-27B release

ARTICLE↑ trendingReddit r/LocalLLaMA·22/4/2026

Is a high-end private local LLM setup worth it?

El usuario se pregunta si vale la pena una configuración local de LLM de gama alta, mencionando los altos costos, las dificultades de configuración y las diferencias de rendimiento con servicios en la nube como Claude y GPT. Está dispuesto a invertir en hardware potente, pero quiere saber si realmente puede igualar la velocidad y la inteligencia de los principales modelos comerciales.

local LLM private-ai cost hardware

ARTICLE↑ trendingReddit r/LocalLLaMA·7/5/2026

Need advice on hardware purchasing decision: RTX 5090 vs. M5 Max 128GB for agentic software development

El usuario busca consejo sobre la elección entre una RTX 5090 y un M5 Max 128GB para el desarrollo de software agéntico con Qwen3.6 27B localmente. La RTX 5090 ofrece el triple de velocidad, mientras que el M5 Max proporciona el cuádruple de memoria, lo que plantea una disyuntiva entre la velocidad de generación de código y una mayor capacidad de contexto.

LLMs GPU hardware performance

RESEARCH↑ trendingReddit r/LocalLLaMA·19/4/2026

QWEN3.6 + ik_llama is fast af

Un usuario informó haber ejecutado el modelo Qwen3.6 + ik_llama a más de 50 tokens/segundo con una ventana de contexto de 200k en 16GB de VRAM y 32GB de RAM. Esto representa un hito de rendimiento significativo para los grandes modelos de lenguaje.

Benchmarking hardware performance LLM

ARTICLEDEV.to AI·23/4/2026

Building a Bit-Accurate Fused QKV + RoPE Kernel for Qwen 2.5 in Triton

Este artículo describe la creación de un kernel Triton de precisión de bits para Qwen 2.5, fusionando la proyección QKV, RoPE y la escritura en caché KV en una única operación. Logra una aceleración de 4,5 a 5 veces sobre múltiples operaciones de PyTorch, manteniendo la precisión exacta de la salida.

GPU computing Transformer AI optimization Triton

NEWS↑ trendingReddit r/LocalLLaMA·9/4/2026

backend-agnostic tensor parallelism has been merged into llama.cpp

A funcionalidade de paralelismo de tensor backend-agnóstico foi integrada ao llama.cpp, permitindo que modelos de IA rodem muito mais rápido em sistemas com múltiplas GPUs. Isso significa que a aceleração de desempenho não exige mais CUDA.

LLMs Otimização GPU IA

ARTICLE↑ trendingReddit r/LocalLLaMA·23/4/2026

Compared QWEN 3.6 35B with QWEN 3.6 27B for coding primitives

El contenido compara los modelos Qwen 3.6 35B y 27B para primitivas de codificación, señalando que el 35B es más rápido (72 TPS) pero menos preciso que el 27B (18 TPS), el cual produce resultados más correctos a pesar de ser más lento. Incluye un prompt de prueba y busca experiencias de usuario.

Benchmarking Qwen performance coding

Compared QWEN 3.6 35B with QWEN 3.6 27B for coding primitives

NEWS↑ trendingReddit r/LocalLLaMA·12/4/2026

MiniMax m2.7 (mac only) 63gb: 88% and 89gb: 95%, MMLU 200q

El contenido anuncia el lanzamiento del modelo de IA MiniMax M2.7, disponible en versiones de 63GB y 89GB, optimizado para Mac. Destaca su rendimiento prometedor, sugiriendo que se acerca a niveles de modelos como Sonnet 4.5 y menciona el benchmark MMLU.

local inference MiniMax performance HuggingFace