RESEARCH31

Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models

arXiv CS.CL·17 de abril de 2026

Este trabalho propõe uma estrutura unificada guiada por sensoriamento compressivo para a execução dinâmica de LLMs, visando reduzir o número massivo de parâmetros, o uso de memória e a latência de decodificação. A abordagem integra a compressão de modelos e de prompts, utilizando operadores de medição aleatórios e recuperação esparsa para estimar conjuntos de suporte adaptativos à tarefa e ao token.

Model Compression LLM optimization sparse recovery compressed sensing

Ler original ↗