RESEARCH29

Two-dimensional early exit optimisation of LLM inference

arXiv CS.CL·22 avril 2026

Cet article introduit une stratégie bidimensionnelle de « early exit » pour les tâches de classification des LLM, coordonnant la sortie par couche et par phrase. Cette méthode permet des économies de calcul multiplicatives et des accélérations de 1.4 à 2.3 fois par rapport à l'approche par couche seule, applicable à divers LLM pour des tâches plus simples.

LLMs Computational Efficiency Inference Optimization

Lire l'original ↗