EdgeRazor: A Lightweight Framework for Large Language Models via Mixed-Precision Quantization-Aware Distillation
Diese Forschung stellt EdgeRazor vor, ein leichtgewichtiges Framework zur Bereitstellung großer Sprachmodelle auf ressourcenbeschränkten Geräten. Es nutzt gemischt-präzise quantisierungsbewusste Destillation, um Modelle voller Präzision in Formate mit geringerer Bitrate umzuwandeln und so die Einschränkungen früherer Quantisierungsmethoden zu überwinden.