heapsort
RESEARCH31

Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models

arXiv CS.CL·17. April 2026

Diese Arbeit stellt ein vereinheitlichtes, auf Compressed Sensing basierendes Framework für die dynamische Ausführung von LLMs vor, das die massiven Parameterzahlen, den Speicherverbrauch und die DekodierungsLatenz großer Sprachmodelle adressiert. Es integriert Modell- und Prompt-Kompression, indem es zufällige Messoperatoren und Sparse Recovery nutzt, um aufgabenkonditionierte und token-adaptive Support-Sets zu schätzen.

Original lesen