RESEARCH27

EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation

arXiv CS.LG·7 mai 2026

Cette recherche présente EdgeRazor, un cadre léger conçu pour déployer les grands modèles de langage sur des appareils à ressources limitées. Il utilise une distillation de quantification consciente à précision mixte pour convertir les modèles à pleine précision en formats à bits inférieurs, surmontant les limitations des méthodes de quantification précédentes.

LLMs deep learning quantization model optimization edge computing

Lire l'original ↗