← heapsort-ai

Inference Optimization

11 items

ARTICLEDEV.to AI·19/04/2026

The Rise of Inference Optimization: The Real LLM Infra Trend Shaping 2026

O conteúdo destaca a otimização de inferência como a tendência crítica que moldará a infraestrutura de LLM até 2026, enfatizando sua importância sobre o tamanho do modelo. Explica que, embora o treinamento seja um custo único, a inferência é uma despesa contínua que impacta diretamente as margens e a experiência do usuário, tornando a eficiência primordial.

30
RESEARCHarXiv CS.CL·7d atrás

SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding

Este artigo propõe SENSE (Semantic Embedding Navigation with Soft-gated Evaluation) para aprimorar a Decodificação Especulativa Baseada em Recuperação (RSD) em LLMs. SENSE aborda as dependências lexicais rígidas do RSD, utilizando alinhamento semântico e avaliação soft-gated para validar equivalência semântica em vez de formas superficiais.

29
RESEARCHarXiv CS.CL·01/05/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Este artigo apresenta o Length Value Model (LenVM), uma nova estrutura em nível de token para modelar o comprimento de geração restante em modelos autorregressivos. Ao formular o problema como estimativa de valor, o LenVM fornece um sinal eficaz, livre de anotações e escalável para LLMs e VLMs, melhorando o desempenho na correspondência exata de comprimento.

27
RESEARCHarXiv CS.CL·30/04/2026

SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding

SpecTr-GBV é um novo método de decodificação especulativa que unifica estratégias multi-rascunho e verificação de bloco gulosa para acelerar a inferência de modelos de linguagem. Ele formula a etapa de verificação como um problema de transporte ótimo, melhorando a eficiência teórica e o desempenho empírico ao atingir o comprimento de aceitação ideal.

27
RESEARCHarXiv CS.CL·21/04/2026

Cross-Family Speculative Decoding for Polish Language Models on Apple~Silicon: An Empirical Evaluation of Bielik~11B with UAG-Extended MLX-LM

Esta pesquisa avalia a decodificação especulativa entre famílias para LLMs poloneses em Apple Silicon, estendendo o framework MLX-LM com Geração Assistida Universal (UAG) para compatibilidade entre tokenizadores. Os experimentos demonstram que a tradução de tokens ciente do contexto melhora significativamente as taxas de aceitação do Bielik 11B em conjuntos de dados em língua polonesa.

27