Matched-Learning-Rate Analysis of Attention Drift and Transfer Retention in Fine-Tuned CLIP
Cette étude examine comment les méthodes d'adaptation (Full FT vs. LoRA) et l'échelle d'optimisation façonnent la dérive d'attention et la rétention de transfert dans les modèles CLIP affinés. Une comparaison contrôlée des taux d'apprentissage montre que le taux d'apprentissage module fortement le changement structurel, Full FT présentant une contraction marquée à des taux plus élevés tandis que LoRA reste à entropie positive.