heapsort
RESEARCH31

Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models

arXiv CS.CL·17 avril 2026

Cet article propose un cadre unifié guidé par la détection compressée pour l'exécution dynamique des LLM, visant à réduire le nombre massif de paramètres, l'utilisation de la mémoire et la latence de décodage. Il intègre la compression de modèle et de prompt en utilisant des opérateurs de mesure aléatoires et une récupération parcimonieuse pour estimer des ensembles de support adaptés aux tâches et aux tokens.

Lire l'original