RESEARCHarXiv CS.CL·17/04/2026
Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models
Este trabalho propõe uma estrutura unificada guiada por sensoriamento compressivo para a execução dinâmica de LLMs, visando reduzir o número massivo de parâmetros, o uso de memória e a latência de decodificação. A abordagem integra a compressão de modelos e de prompts, utilizando operadores de medição aleatórios e recuperação esparsa para estimar conjuntos de suporte adaptativos à tarefa e ao token.
31