RESEARCH27
A Layer-wise Analysis of Supervised Fine-Tuning
arXiv CS.LG·15. April 2026
Diese Forschung analysiert Supervised Fine-Tuning (SFT) und zeigt, dass die Fähigkeit zur Befolgung von Anweisungen schichtübergreifend auftritt: Mittlere Schichten sind stabil, während die letzten Schichten hochsensibel sind. Darauf aufbauend schlagen die Autoren Mid-Block Efficient Tuning vor, das kritische Zwischenschichten aktualisiert und Standard-LoRA bei reduziertem Parameter-Overhead übertrifft.
Supervised Fine-TuningLayer-wise AnalysisCatastrophic Forgettinglarge language modelsEfficient Tuning
Original lesen ↗