← heapsort-ai

AI inference

28 items

DOC↑ trendingReddit r/LocalLLaMA·6/5/2026

2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints

Este contenido detalla cómo lograr una inferencia 2.5 veces más rápida con Qwen 3.6 27B usando el soporte MTP en llama.cpp, alcanzando 28 tok/s en un M2 Max. Proporciona archivos GGUF convertidos para descargar, adecuados para codificación agéntica local con 262k de contexto en 48GB.

43
RESEARCH↑ trendingReddit r/LocalLLaMA·7/5/2026

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ParoQuant es una técnica novedosa que emplea cuantización de rotación por pares para mejorar significativamente la eficiencia de la inferencia de Modelos de Lenguaje Grandes (LLM). Este método se dirige específicamente a los LLM de razonamiento, permitiendo una implementación más económica y rápida al reducir los requisitos computacionales y de memoria.

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference
42
ARTICLE↑ trendingReddit r/LocalLLaMA·hace 28d

I got a real transformer language model running locally on a stock Game Boy Color!

Se ejecutó localmente un modelo de lenguaje transformador (TinyStories-260K) en una Game Boy Color estándar, utilizando pesos INT8 y aritmética de punto fijo. Esta impresionante hazaña técnica implicó una ROM personalizada y tokenización en el dispositivo, aunque el rendimiento es extremadamente lento y la salida es incomprensible.

I got a real transformer language model running locally on a stock Game Boy Color!
42
ARTICLEDEV.to AI·hace 15d

The Quiet AI War Inside Your Browser

Google lanzó la API Prompt en Chrome 148, permitiendo la inferencia de IA local con Gemini Nano directamente en los dispositivos de los usuarios, a pesar de la fuerte oposición de Mozilla, Apple y el W3C. Esta característica ofrece IA sin costos de servidor, latencia ni salida de datos del dispositivo, consolidando la victoria de Google en esta

30
DOCDEV.to AI·hace 24d

A Developer's Guide to AI Inference Costs in 2026

Esta guía práctica ayuda a los desarrolladores a estimar los costos de inferencia de IA, abordando factores como el costo por token de API y la crucial tasa de acierto de caché. Para modelos propios, enfatiza la importancia de la tasa de utilización de la GPU para optimizar los gastos. Comprender estas variables es esencial para la sostenibilidad financiera en el desarrollo de funciones de IA.

27
ARTICLEDEV.to AI·19/4/2026

Cloudflare Workers AI: Run Edge Inference Without a GPU Server

Cloudflare Workers AI permite ejecutar inferencia de IA en el borde sin necesidad de servidores GPU, ofreciendo más de 50 modelos y facturación por unidad de inferencia. Este servicio simplifica el desarrollo de aplicaciones nativas de IA al proporcionar inferencia global de baja latencia en la red GPU de Cloudflare, eliminando arranques en frío y la gestión del servidor.

27
RESEARCHarXiv CS.AI·4/5/2026

Token Arena: A Continuous Benchmark Unifying Energy and Cognition in AI Inference

Se presenta TokenArena como un benchmark continuo que mide la inferencia de IA a nivel de endpoint en cinco ejes principales. Sintetiza la velocidad de salida, el tiempo hasta el primer token, el precio, el contexto efectivo y la calidad, junto con estimaciones de energía, en compuestos como julios y dólares por respuesta correcta y fidelidad del endpoint.

27
RESEARCHarXiv CS.LG·hace 20d

UCCI: Calibrated Uncertainty for Cost-Optimal LLM Cascade Routing

UCCI es un enrutador innovador que utiliza la incertidumbre calibrada para optimizar el coste de las cascadas de LLM, enviando consultas fáciles a modelos pequeños y difíciles a modelos grandes. Reduce el coste de inferencia en un 31% en cargas de trabajo de producción, manteniendo la precisión, mediante la calibración de la confianza del modelo.

27
RESEARCHarXiv CS.CL·hace 12d

EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter AdaptationTarget

EvoSpec introduce un marco para la evolución en tiempo real de modelos preliminares en la decodificación especulativa para Grandes Modelos de Lenguaje, abordando el cuello de botella de los vocabularios grandes. Utiliza adaptación dinámica de vocabulario y parámetros, empleando un mecanismo sensible al contexto y una estrategia ligera de alineación en línea para mejorar las tasas de aceptación y minimizar las brechas distribucionales.

27
ARTICLE↑ trendingReddit r/LocalLLaMA·21/4/2026

llama.cpp is the linux of llm

El contenido compara llama.cpp con Linux en el ámbito de los Large Language Models (LLMs), sugiriendo que es una solución fundamental y de código abierto para ejecutar LLMs. El autor cuestiona la precisión de esta analogía para el ecosistema de LLMs.

27