LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs
LayerBoost propose une optimisation pour les LLM en modifiant sélectivement le mécanisme d'attention en fonction de la sensibilité des couches individuelles du transformateur. Cela vise à réduire la complexité quadratique de l'attention softmax, un goulot d'étranglement majeur pour l'inférence efficace, sans dégradation significative de la qualité du modèle.