RESEARCH27

A Layer-wise Analysis of Supervised Fine-Tuning

arXiv CS.LG·15. April 2026

Diese Forschung analysiert Supervised Fine-Tuning (SFT) und zeigt, dass die Fähigkeit zur Befolgung von Anweisungen schichtübergreifend auftritt: Mittlere Schichten sind stabil, während die letzten Schichten hochsensibel sind. Darauf aufbauend schlagen die Autoren Mid-Block Efficient Tuning vor, das kritische Zwischenschichten aktualisiert und Standard-LoRA bei reduziertem Parameter-Overhead übertrifft.

Supervised Fine-Tuning Layer-wise Analysis Catastrophic Forgetting large language models Efficient Tuning

Original lesen ↗