RESEARCH27
Theory-optimal Quantization Based on Flatness
arXiv CS.LG·20 mai 2026
Cette recherche modélise la relation entre l'erreur de quantification et les valeurs aberrantes dans les grands modèles de langage (LLM) et introduit une nouvelle métrique, Flatness, pour quantifier la distribution des valeurs aberrantes. Sur cette base, elle dérive une solution théorique optimale et propose la Quantification Diagonale Bidirectionnelle (BDQ) pour la quantification post-entraînement.
Lire l'original ↗