RESEARCH31

Compressed-Sensing-Guided, Inference-Aware Structured Reduction for Large Language Models

arXiv CS.CL·17 de abril de 2026

Este trabajo propone un marco unificado guiado por sensado comprimido para la ejecución dinámica de LLM, abordando los altos recuentos de parámetros, el uso de memoria y la latencia de decodificación. Integra la compresión de modelos y de prompts utilizando operadores de medición aleatorios y recuperación dispersa para estimar conjuntos de soporte adaptados a la tarea y al token.

Model Compression LLM optimization sparse recovery compressed sensing

Leer original ↗