RESEARCH29

Two-dimensional early exit optimisation of LLM inference

arXiv CS.CL·22 de abril de 2026

Este artigo introduz uma estratégia de "early exit" bidimensional para tarefas de classificação em LLMs, coordenando saídas por camada e por sentença. O método alcança economias computacionais multiplicativas e acelerações de 1.4-2.3x em comparação com abordagens de uma dimensão, sendo eficaz em diversos LLMs para tarefas mais simples.

LLMs Computational Efficiency Inference Optimization

Ler original ↗