Inference Optimization

11 items

ARTICLE↑ trendingReddit r/LocalLLaMA·19/4/2026

Unweight: how we compressed an LLM 22% without sacrificing quality

Cloudflare creó Unweight, un sistema de compresión sin pérdidas que reduce los pesos de LLMs entre un 15% y un 22% para optimizar la inferencia en GPUs. Utiliza codificación Huffman para comprimir los exponentes de los pesos BF16, manteniendo salidas bit a bit exactas.

GPU optimization lossless compression LLM compression Inference Optimization

Unweight: how we compressed an LLM 22% without sacrificing quality

ARTICLEDEV.to AI·19/4/2026

The Rise of Inference Optimization: The Real LLM Infra Trend Shaping 2026

El contenido destaca la optimización de inferencia como la tendencia crítica que dará forma a la infraestructura de LLM para 2026, enfatizando su importancia sobre el tamaño del modelo. Explica que, si bien el entrenamiento es un costo único, la inferencia es un gasto continuo que impacta directamente los márgenes y la experiencia del usuario, haciendo que la eficiencia sea primordial.

quantization AI infrastructure Inference Optimization Cost Efficiency

RESEARCHarXiv CS.CL·22/4/2026

Two-dimensional early exit optimisation of LLM inference

Este artículo introduce una estrategia bidimensional de "early exit" para tareas de clasificación en LLMs, coordinando la salida por capa y por sentencia. El método logra ahorros computacionales multiplicativos y aceleraciones de 1.4-2.3x sobre el "early exit" por capa óptimo, aplicable a varios LLMs de última generación en tareas más simples.

LLMs Computational Efficiency Inference Optimization

RESEARCHarXiv CS.CL·hace 7d

SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding

Este artículo propone SENSE (Semantic Embedding Navigation with Soft-gated Evaluation) para mejorar la Decodificación Especulativa Basada en Recuperación (RSD) en LLMs. SENSE aborda las rígidas dependencias léxicas de RSD, utilizando alineación semántica y evaluación de puerta suave para validar la equivalencia semántica.

LLMs NLP Inference Optimization Speculative Decoding

RESEARCHarXiv CS.CL·23/4/2026

TTKV: Temporal-Tiered KV Cache for Long-Context LLM Inference

TTKV propone un marco de gestión de caché KV en niveles temporales para LLMs, inspirado en la memoria humana, para abordar la escala lineal de la memoria del caché KV. Particiona el caché en niveles con capacidad y precisión heterogéneas, asignando estados KV más recientes a niveles más rápidos y de mayor precisión.

neural networks LLMs memory management Inference Optimization

ARTICLEDEV.to AI·15/4/2026

The Hidden Cost of Running LLM Applications at Scale

El artículo aborda el problema común de los costes de LLM en producción que se disparan inesperadamente, explicando que la causa no es el coste directo del modelo, sino las decisiones de diseño iniciales. Un error clave identificado es usar un único y costoso endpoint de inferencia para todo tipo de solicitudes, sin optimización.

multi-tenant LLM production systems LLM costs AI economics

ARTICLEDEV.to AI·26/4/2026

DeepSeek V4: Million-Token Context That Actually Works

DeepSeek V4 ofrece un contexto de 1 millón de tokens que es realmente utilizable, resolviendo el problema de memoria de la GPU con una arquitectura de atención híbrida que comprime el caché KV en casi 9x. Esto lo convierte en una solución práctica para la inferencia de contexto largo, a diferencia de muchos otros modelos.

DeepSeek AI models Model Architecture large language models

RESEARCHarXiv CS.CL·1/5/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Este artículo presenta el Length Value Model (LenVM), un nuevo marco a nivel de token para modelar la longitud de generación restante en modelos autorregresivos. Al formular el modelado de la longitud como un problema de estimación de valor, LenVM proporciona una señal eficaz, sin anotaciones y escalable para LLM y VLM, mejorando el rendimiento en la coincidencia exacta de longitud.

deep learning Model Architecture computer vision large language models

RESEARCHarXiv CS.CL·30/4/2026

SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding

SpecTr-GBV es un nuevo método de decodificación especulativa que unifica estrategias de multi-borrador y verificación de bloques voraz para acelerar la inferencia de modelos de lenguaje. Formula el paso de verificación como un problema de transporte óptimo, mejorando tanto la eficiencia teórica como el rendimiento empírico al alcanzar la longitud de aceptación óptima.

large language models Inference Optimization Speculative Decoding AI Research

RESEARCHarXiv CS.CL·24/4/2026

TRACES: Tagging Reasoning Steps for Adaptive Cost-Efficient Early-Stopping

Este artículo presenta TRACES, un framework ligero diseñado para optimizar los Modelos de Razonamiento del Lenguaje (LRMs) etiquetando los pasos de razonamiento en tiempo real. Permite la detención temprana adaptativa y costo-eficiente de las inferencias de LRM, abordando su ineficiencia actual y la sobre-generación de pasos de verificación.

LLMs early stopping Reasoning Inference Optimization

RESEARCHarXiv CS.CL·21/4/2026

Cross-Family Speculative Decoding for Polish Language Models on Apple~Silicon: An Empirical Evaluation of Bielik~11B with UAG-Extended MLX-LM

Esta investigación evalúa la decodificación especulativa entre familias para LLMs polacos en Apple Silicon, extendiendo el framework MLX-LM con Generación Asistida Universal (UAG) para compatibilidad entre tokenizadores. Los experimentos demuestran que la traducción de tokens consciente del contexto mejora significativamente las tasas de aceptación del Bielik 11B en conjuntos de datos en polaco.

apple-silicon Natural Language Processing Inference Optimization Speculative Decoding