RESEARCH27
Parameter Efficiency Is Not Memory Efficiency: Rethinking Fine-Tuning for On-Device LLM Adaptation
arXiv CS.LG·28 avril 2026
Cette recherche remet en question l'hypothèse selon laquelle la PEFT équivaut à l'efficacité de la mémoire pour les LLM sur appareil, montrant que les méthodes existantes peuvent toujours provoquer des erreurs de mémoire insuffisante. Elle introduit LARS, un nouveau cadre qui découple la consommation de mémoire de la longueur de séquence en contraignant le sous-espace d'activation, réduisant l'empreinte mémoire de 33,54% en moyenne.
Lire l'original ↗