RESEARCH54

Parameter Efficiency Is Not Memory Efficiency: Rethinking Fine-Tuning for On-Device LLM Adaptation

arXiv CS.LG·28 de abril de 2026

Este trabalho desafia a suposição de que PEFT garante eficiência de memória para LLMs em dispositivos, demonstrando que métodos como LoRA podem falhar devido a tensores intermediários. Ele introduz LARS, uma nova estrutura que otimiza o subespaço de ativação para desacoplar o consumo de memória do comprimento da sequência, resultando em uma redução média de 33,54% no uso de memória.

Memory OptimizationOn-Device AIFine-TuningPEFTLLM

Ler original ↗