EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation
Esta investigación introduce EdgeRazor, un marco ligero diseñado para desplegar Grandes Modelos de Lenguaje en dispositivos con recursos limitados. Aprovecha la destilación consciente de la cuantificación de precisión mixta para convertir modelos de precisión completa a formatos de bits más bajos, superando las limitaciones de los métodos de cuantificación previos.