RESEARCHarXiv CS.CL·17/4/2026
Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models
Este trabajo propone un marco unificado guiado por sensado comprimido para la ejecución dinámica de LLM, abordando los altos recuentos de parámetros, el uso de memoria y la latencia de decodificación. Integra la compresión de modelos y de prompts utilizando operadores de medición aleatorios y recuperación dispersa para estimar conjuntos de soporte adaptados a la tarea y al token.
31