AI inference

28 items

ARTICLE↑ trendingHacker News (AI)·hace 6d

Lean Inference: Lean Manufacturing Principles Applied to AI

Este artículo explora la aplicación de los principios de Lean Manufacturing a la inferencia de IA, con el objetivo de optimizar la eficiencia y reducir el desperdicio en los flujos de trabajo de inteligencia artificial. Detalla cómo las metodologías lean pueden utilizarse para mejorar el rendimiento y la sostenibilidad de los sistemas de IA.

MLOps Optimization Lean Manufacturing efficiency

DOC↑ trendingReddit r/LocalLLaMA·6/5/2026

2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints

Este contenido detalla cómo lograr una inferencia 2.5 veces más rápida con Qwen 3.6 27B usando el soporte MTP en llama.cpp, alcanzando 28 tok/s en un M2 Max. Proporciona archivos GGUF convertidos para descargar, adecuados para codificación agéntica local con 262k de contexto en 48GB.

LLM optimization llama.cpp GGUF Qwen

RESEARCH↑ trendingReddit r/LocalLLaMA·7/5/2026

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

ParoQuant es una técnica novedosa que emplea cuantización de rotación por pares para mejorar significativamente la eficiencia de la inferencia de Modelos de Lenguaje Grandes (LLM). Este método se dirige específicamente a los LLM de razonamiento, permitiendo una implementación más económica y rápida al reducir los requisitos computacionales y de memoria.

Optimization LLMs efficiency quantization

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

NEWS↑ trendingReddit r/LocalLLaMA·19/4/2026

llama.cpp speculative checkpointing was merged

La funcionalidad de "speculative checkpointing" se ha fusionado en llama.cpp, ofreciendo posibles mejoras de velocidad. Aunque algunos prompts, como para codificación con parámetros optimizados, pueden ver un aumento de velocidad del 0% al 50%, otros podrían no beneficiarse debido a una baja aceptación del borrador.

Open Source llama.cpp speculative-checkpointing AI inference

ARTICLE↑ trendingReddit r/LocalLLaMA·hace 28d

I got a real transformer language model running locally on a stock Game Boy Color!

Se ejecutó localmente un modelo de lenguaje transformador (TinyStories-260K) en una Game Boy Color estándar, utilizando pesos INT8 y aritmética de punto fijo. Esta impresionante hazaña técnica implicó una ROM personalizada y tokenización en el dispositivo, aunque el rendimiento es extremadamente lento y la salida es incomprensible.

Hardware Acceleration Edge AI quantization AI inference

I got a real transformer language model running locally on a stock Game Boy Color!

ARTICLEDEV.to AI·hace 15d

The Quiet AI War Inside Your Browser

Google lanzó la API Prompt en Chrome 148, permitiendo la inferencia de IA local con Gemini Nano directamente en los dispositivos de los usuarios, a pesar de la fuerte oposición de Mozilla, Apple y el W3C. Esta característica ofrece IA sin costos de servidor, latencia ni salida de datos del dispositivo, consolidando la victoria de Google en esta

Google Chrome Web Standards Gemini Nano AI inference

DOCDEV.to AI·hace 22d

Building llama.cpp from source on a Dell Precision T5820 with an RTX 3090 Ti (after seven power cycles)

Este artículo detalla la configuración de un Dell Precision T5820 con una RTX 3090 Ti para inferencia de IA utilizando llama.cpp para ejecutar Qwen3.6-27B. El autor comparte la receta de construcción, la solución de problemas de PCIe y trucos para contexto largo, enfatizando la paciencia como una solución clave.

Homelab GPU Troubleshooting llama.cpp

NEWSAWS Machine Learning Blog·hace 5d

NVIDIA Nemotron 3 Ultra now available on Amazon SageMaker JumpStart

NVIDIA Nemotron 3 Ultra ya está disponible en Amazon SageMaker JumpStart. Esta implementación proporciona una inferencia 5 veces más rápida y un 30% menos de coste para cargas de trabajo de IA.

Nemotron 3 Ultra machine learning NVIDIA AI inference

DOCDEV.to AI·hace 23d

How to Fast Ai Inference with itapi.ai: A Complete Guide [May 2026]

Esta guía detalla cómo itapi.ai simplifica la inferencia rápida de IA, ofreciendo una API robusta y amigable para desarrolladores que reduce el tiempo de integración. Proporciona un proceso paso a paso para comenzar, incluyendo la creación de una cuenta gratuita y la instalación del SDK oficial.

development tutorial API SDK

DOCDEV.to AI·hace 24d

A Developer's Guide to AI Inference Costs in 2026

Esta guía práctica ayuda a los desarrolladores a estimar los costos de inferencia de IA, abordando factores como el costo por token de API y la crucial tasa de acierto de caché. Para modelos propios, enfatiza la importancia de la tasa de utilización de la GPU para optimizar los gastos. Comprender estas variables es esencial para la sostenibilidad financiera en el desarrollo de funciones de IA.

Optimization cloud computing costs AI inference

DOCHugging Face Blog·hace 29d

Building Blocks for Foundation Model Training and Inference on AWS

El contenido trata sobre los bloques de construcción esenciales para el entrenamiento e inferencia de modelos de fundación en la plataforma AWS. Explora los componentes necesarios para implementar y operar estos modelos.

AI training machine learning Foundation Models AWS

ARTICLEDEV.to AI·hace 7d

Request-Based vs Token Pricing for LLM Inference in 2026

El contenido analiza la posible evolución de los modelos de precios para la inferencia de LLM hasta 2026, pasando de una facturación basada en tokens a una basada en solicitudes. El modelo basado en tokens actual genera costos impredecibles con grandes ventanas de contexto, mientras que el basado en solicitudes ofrece certeza de costos.

cost management LLM pricing AI inference API billing

ARTICLEDEV.to AI·19/4/2026

Cloudflare Workers AI: Run Edge Inference Without a GPU Server

Cloudflare Workers AI permite ejecutar inferencia de IA en el borde sin necesidad de servidores GPU, ofreciendo más de 50 modelos y facturación por unidad de inferencia. Este servicio simplifica el desarrollo de aplicaciones nativas de IA al proporcionar inferencia global de baja latencia en la red GPU de Cloudflare, eliminando arranques en frío y la gestión del servidor.

cloud computing machine learning Serverless AI inference

DOCDEV.to AI·hace 18d

在老旧 AMD RX 580 (8GB) 上通过原生 Vulkan 运行 Flux Schnell (12B) + LLM — 完整架构指南 [2026]

Esta guía técnica demuestra cómo ejecutar LLMs y modelos de Stable Diffusion en una antigua GPU AMD RX 580 en 2026, sorteando las limitaciones del software de IA. Detalla el uso de Vulkan nativo con el motor ggml para una inferencia eficiente, probando la viabilidad de hardware más antiguo.

Vulkan hardware ggml AI inference

RESEARCHarXiv CS.AI·4/5/2026

Token Arena: A Continuous Benchmark Unifying Energy and Cognition in AI Inference

Se presenta TokenArena como un benchmark continuo que mide la inferencia de IA a nivel de endpoint en cinco ejes principales. Sintetiza la velocidad de salida, el tiempo hasta el primer token, el precio, el contexto efectivo y la calidad, junto con estimaciones de energía, en compuestos como julios y dólares por respuesta correcta y fidelidad del endpoint.

AI models Energy Efficiency performance evaluation Benchmarking

RESEARCHarXiv CS.LG·hace 20d

UCCI: Calibrated Uncertainty for Cost-Optimal LLM Cascade Routing

UCCI es un enrutador innovador que utiliza la incertidumbre calibrada para optimizar el coste de las cascadas de LLM, enviando consultas fáciles a modelos pequeños y difíciles a modelos grandes. Reduce el coste de inferencia en un 31% en cargas de trabajo de producción, manteniendo la precisión, mediante la calibración de la confianza del modelo.

LLM routing uncertainty calibration model cascades Cost Optimization

RESEARCHarXiv CS.CL·hace 12d

EvoSpec: Evolving Speculative Decoding via Real-Time Vocabulary and Parameter AdaptationTarget

EvoSpec introduce un marco para la evolución en tiempo real de modelos preliminares en la decodificación especulativa para Grandes Modelos de Lenguaje, abordando el cuello de botella de los vocabularios grandes. Utiliza adaptación dinámica de vocabulario y parámetros, empleando un mecanismo sensible al contexto y una estrategia ligera de alineación en línea para mejorar las tasas de aceptación y minimizar las brechas distribucionales.

Optimization machine learning large language models AI inference

ARTICLE↑ trendingReddit r/LocalLLaMA·21/4/2026

llama.cpp is the linux of llm

El contenido compara llama.cpp con Linux en el ámbito de los Large Language Models (LLMs), sugiriendo que es una solución fundamental y de código abierto para ejecutar LLMs. El autor cuestiona la precisión de esta analogía para el ecosistema de LLMs.

Open Source AI inference LLM

RESEARCHarXiv CS.LG·30/4/2026

Rethinking KV Cache Eviction via a Unified Information-Theoretic Objective

Este trabajo replantea la eliminación de caché KV para LLMs utilizando un objetivo de información-teórico derivado del principio del Cuello de Botella de la Información. Introduce CapKV, un nuevo método consciente de la capacidad que preserva la información, superando las estrategias heurísticas existentes.

Memory Optimization machine learning large language models AI inference

ARTICLETogether AI Blog·8/5/2026

Serving DeepSeek-V4: why million-token context is an inference systems problem

El contexto de millones de tokens de DeepSeek-V4 convierte esto en un problema para los sistemas de inferencia. Together AI explora el trabajo de inferencia detrás de V4 en NVIDIA HGX B200, incluyendo layouts KV comprimidos y caché de prefijos para cargas de trabajo de contexto largo.

long-context models DeepSeek V4 NVIDIA AI inference