RESEARCH29
Two-dimensional early exit optimisation of LLM inference
arXiv CS.CL·22 de abril de 2026
Este artículo introduce una estrategia bidimensional de "early exit" para tareas de clasificación en LLMs, coordinando la salida por capa y por sentencia. El método logra ahorros computacionales multiplicativos y aceleraciones de 1.4-2.3x sobre el "early exit" por capa óptimo, aplicable a varios LLMs de última generación en tareas más simples.
Leer original ↗