Skip a Layer or Loop It? Learning Program-of-Layers in LLMs
Diese Forschung stellt "Program-of-Layers (PoLar)" für LLMs vor, das dynamisches Überspringen oder Wiederholen von vortrainierten Schichten während der Inferenz ermöglicht, um gleiche oder bessere Genauigkeit bei kürzeren Ausführungspfaden zu erzielen. Ein leichtgewichtiges Vorhersagenetzwerk lernt, diese maßgeschneiderten Programme zu generieren und zeigt verbesserte Leistung bei mathematischen Reasoning-Benchmarks.
