RESEARCH27
Matched-Learning-Rate Analysis of Attention Drift and Transfer Retention in Fine-Tuned CLIP
arXiv CS.LG·21 de abril de 2026
Este artigo investiga como os métodos de adaptação (Full FT vs. LoRA) e a escala de otimização afetam o "attention drift" e a retenção de transferência em modelos CLIP ajustados. Através de uma comparação de taxas de aprendizado controladas, ele revela que a taxa de aprendizado modula fortemente a mudança estrutural, com o Full FT mostrando contração acentuada em taxas mais altas, enquanto o LoRA mantém entropia positiva.
Ler original ↗