RESEARCH29

Two-dimensional early exit optimisation of LLM inference

arXiv CS.CL·22 de abril de 2026

Este artículo introduce una estrategia bidimensional de "early exit" para tareas de clasificación en LLMs, coordinando la salida por capa y por sentencia. El método logra ahorros computacionales multiplicativos y aceleraciones de 1.4-2.3x sobre el "early exit" por capa óptimo, aplicable a varios LLMs de última generación en tareas más simples.

LLMs Computational Efficiency Inference Optimization

Leer original ↗