RESEARCH31
Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models
arXiv CS.CL·17 de abril de 2026
Este trabajo propone un marco unificado guiado por sensado comprimido para la ejecución dinámica de LLM, abordando los altos recuentos de parámetros, el uso de memoria y la latencia de decodificación. Integra la compresión de modelos y de prompts utilizando operadores de medición aleatorios y recuperación dispersa para estimar conjuntos de soporte adaptados a la tarea y al token.
Leer original ↗