EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation
Cette recherche présente EdgeRazor, un cadre léger conçu pour déployer les grands modèles de langage sur des appareils à ressources limitées. Il utilise une distillation de quantification consciente à précision mixte pour convertir les modèles à pleine précision en formats à bits inférieurs, surmontant les limitations des méthodes de quantification précédentes.