RESEARCHarXiv CS.CL·4/17/2026
Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models
Diese Arbeit stellt ein vereinheitlichtes, auf Compressed Sensing basierendes Framework für die dynamische Ausführung von LLMs vor, das die massiven Parameterzahlen, den Speicherverbrauch und die DekodierungsLatenz großer Sprachmodelle adressiert. Es integriert Modell- und Prompt-Kompression, indem es zufällige Messoperatoren und Sparse Recovery nutzt, um aufgabenkonditionierte und token-adaptive Support-Sets zu schätzen.
31