LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs
LayerBoost schlägt eine Optimierung für LLMs vor, indem es den Aufmerksamkeitsmechanismus basierend auf der Empfindlichkeit einzelner Transformator-Schichten selektiv modifiziert. Ziel ist es, die quadratische Komplexität der Softmax-Aufmerksamkeit, einen Hauptengpass für effiziente Inferenz, ohne signifikanten Qualitätsverlust des Modells zu reduzieren.