← heapsort-ai

Inference Optimization

11 items

ARTICLEDEV.to AI·19/4/2026

The Rise of Inference Optimization: The Real LLM Infra Trend Shaping 2026

El contenido destaca la optimización de inferencia como la tendencia crítica que dará forma a la infraestructura de LLM para 2026, enfatizando su importancia sobre el tamaño del modelo. Explica que, si bien el entrenamiento es un costo único, la inferencia es un gasto continuo que impacta directamente los márgenes y la experiencia del usuario, haciendo que la eficiencia sea primordial.

30
RESEARCHarXiv CS.CL·hace 7d

SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding

Este artículo propone SENSE (Semantic Embedding Navigation with Soft-gated Evaluation) para mejorar la Decodificación Especulativa Basada en Recuperación (RSD) en LLMs. SENSE aborda las rígidas dependencias léxicas de RSD, utilizando alineación semántica y evaluación de puerta suave para validar la equivalencia semántica.

29
RESEARCHarXiv CS.CL·1/5/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Este artículo presenta el Length Value Model (LenVM), un nuevo marco a nivel de token para modelar la longitud de generación restante en modelos autorregresivos. Al formular el modelado de la longitud como un problema de estimación de valor, LenVM proporciona una señal eficaz, sin anotaciones y escalable para LLM y VLM, mejorando el rendimiento en la coincidencia exacta de longitud.

27
RESEARCHarXiv CS.CL·30/4/2026

SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding

SpecTr-GBV es un nuevo método de decodificación especulativa que unifica estrategias de multi-borrador y verificación de bloques voraz para acelerar la inferencia de modelos de lenguaje. Formula el paso de verificación como un problema de transporte óptimo, mejorando tanto la eficiencia teórica como el rendimiento empírico al alcanzar la longitud de aceptación óptima.

27
RESEARCHarXiv CS.CL·24/4/2026

TRACES: Tagging Reasoning Steps for Adaptive Cost-Efficient Early-Stopping

Este artículo presenta TRACES, un framework ligero diseñado para optimizar los Modelos de Razonamiento del Lenguaje (LRMs) etiquetando los pasos de razonamiento en tiempo real. Permite la detención temprana adaptativa y costo-eficiente de las inferencias de LRM, abordando su ineficiencia actual y la sobre-generación de pasos de verificación.

27
RESEARCHarXiv CS.CL·21/4/2026

Cross-Family Speculative Decoding for Polish Language Models on Apple~Silicon: An Empirical Evaluation of Bielik~11B with UAG-Extended MLX-LM

Esta investigación evalúa la decodificación especulativa entre familias para LLMs polacos en Apple Silicon, extendiendo el framework MLX-LM con Generación Asistida Universal (UAG) para compatibilidad entre tokenizadores. Los experimentos demuestran que la traducción de tokens consciente del contexto mejora significativamente las tasas de aceptación del Bielik 11B en conjuntos de datos en polaco.

27