RESEARCH29
Two-dimensional early exit optimisation of LLM inference
arXiv CS.CL·22 de abril de 2026
Este artigo introduz uma estratégia de "early exit" bidimensional para tarefas de classificação em LLMs, coordenando saídas por camada e por sentença. O método alcança economias computacionais multiplicativas e acelerações de 1.4-2.3x em comparação com abordagens de uma dimensão, sendo eficaz em diversos LLMs para tarefas mais simples.
Ler original ↗