Inference Optimization

11 items

ARTICLE↑ trendingReddit r/LocalLLaMA·19/04/2026

Unweight: how we compressed an LLM 22% without sacrificing quality

A Cloudflare desenvolveu o Unweight, um sistema de compressão sem perdas que reduz o tamanho dos pesos de LLMs em 15-22% para otimizar a inferência em GPUs. Ele comprime os bytes dos expoentes dos pesos BF16 usando codificação Huffman, mantendo a qualidade exata das saídas.

GPU optimization lossless compression LLM compression Inference Optimization

Unweight: how we compressed an LLM 22% without sacrificing quality

ARTICLEDEV.to AI·19/04/2026

The Rise of Inference Optimization: The Real LLM Infra Trend Shaping 2026

O conteúdo destaca a otimização de inferência como a tendência crítica que moldará a infraestrutura de LLM até 2026, enfatizando sua importância sobre o tamanho do modelo. Explica que, embora o treinamento seja um custo único, a inferência é uma despesa contínua que impacta diretamente as margens e a experiência do usuário, tornando a eficiência primordial.

quantization AI infrastructure Inference Optimization Cost Efficiency

RESEARCHarXiv CS.CL·22/04/2026

Two-dimensional early exit optimisation of LLM inference

Este artigo introduz uma estratégia de "early exit" bidimensional para tarefas de classificação em LLMs, coordenando saídas por camada e por sentença. O método alcança economias computacionais multiplicativas e acelerações de 1.4-2.3x em comparação com abordagens de uma dimensão, sendo eficaz em diversos LLMs para tarefas mais simples.

LLMs Computational Efficiency Inference Optimization

RESEARCHarXiv CS.CL·7d atrás

SENSE: Semantic Embedding Navigation with Soft-gated Evaluation for Retrieval-based Speculative Decoding

Este artigo propõe SENSE (Semantic Embedding Navigation with Soft-gated Evaluation) para aprimorar a Decodificação Especulativa Baseada em Recuperação (RSD) em LLMs. SENSE aborda as dependências lexicais rígidas do RSD, utilizando alinhamento semântico e avaliação soft-gated para validar equivalência semântica em vez de formas superficiais.

LLMs NLP Inference Optimization Speculative Decoding

RESEARCHarXiv CS.CL·23/04/2026

TTKV: Temporal-Tiered KV Cache for Long-Context LLM Inference

TTKV propõe uma estrutura de gerenciamento de cache KV com camadas temporais para LLMs, inspirada na memória humana, para resolver a escala linear da memória do cache KV. Ele particiona o cache em camadas com capacidade e precisão heterogêneas, atribuindo estados KV mais recentes a camadas mais rápidas e de maior precisão.

neural networks LLMs memory management Inference Optimization

ARTICLEDEV.to AI·15/04/2026

The Hidden Cost of Running LLM Applications at Scale

O artigo aborda o problema comum de custos de LLM em produção que se tornam muito maiores do que o esperado, explicando que a causa não é o custo direto do modelo, mas sim decisões iniciais de design. Uma das principais falhas é usar um único endpoint de inferência caro para todos os tipos de requisição, sem otimização.

multi-tenant LLM production systems LLM costs AI economics

ARTICLEDEV.to AI·26/04/2026

DeepSeek V4: Million-Token Context That Actually Works

DeepSeek V4 oferece um contexto de 1 milhão de tokens que é realmente utilizável, resolvendo o problema de memória da GPU com uma arquitetura de atenção híbrida que comprime o cache KV em quase 9x. Isso o torna uma solução prática para inferência de longo contexto, ao contrário de muitos outros modelos.

DeepSeek AI models Model Architecture large language models

RESEARCHarXiv CS.CL·01/05/2026

Length Value Model: Scalable Value Pretraining for Token-Level Length Modeling

Este artigo apresenta o Length Value Model (LenVM), uma nova estrutura em nível de token para modelar o comprimento de geração restante em modelos autorregressivos. Ao formular o problema como estimativa de valor, o LenVM fornece um sinal eficaz, livre de anotações e escalável para LLMs e VLMs, melhorando o desempenho na correspondência exata de comprimento.

deep learning Model Architecture computer vision large language models

RESEARCHarXiv CS.CL·30/04/2026

SpecTr-GBV: Multi-Draft Block Verification Accelerating Speculative Decoding

SpecTr-GBV é um novo método de decodificação especulativa que unifica estratégias multi-rascunho e verificação de bloco gulosa para acelerar a inferência de modelos de linguagem. Ele formula a etapa de verificação como um problema de transporte ótimo, melhorando a eficiência teórica e o desempenho empírico ao atingir o comprimento de aceitação ideal.

large language models Inference Optimization Speculative Decoding AI Research

RESEARCHarXiv CS.CL·24/04/2026

TRACES: Tagging Reasoning Steps for Adaptive Cost-Efficient Early-Stopping

O artigo introduz o TRACES, um framework leve para otimizar modelos de raciocínio de linguagem (LRMs) ao marcar etapas de raciocínio em tempo real. Isso permite a interrupção adaptativa e eficiente em termos de custo das inferências, abordando a ineficiência atual e a supergeração de etapas de verificação por LRMs.

LLMs early stopping Reasoning Inference Optimization

RESEARCHarXiv CS.CL·21/04/2026

Cross-Family Speculative Decoding for Polish Language Models on Apple~Silicon: An Empirical Evaluation of Bielik~11B with UAG-Extended MLX-LM

Esta pesquisa avalia a decodificação especulativa entre famílias para LLMs poloneses em Apple Silicon, estendendo o framework MLX-LM com Geração Assistida Universal (UAG) para compatibilidade entre tokenizadores. Os experimentos demonstram que a tradução de tokens ciente do contexto melhora significativamente as taxas de aceitação do Bielik 11B em conjuntos de dados em língua polonesa.

apple-silicon Natural Language Processing Inference Optimization Speculative Decoding