RESEARCH27

Theory-optimal Quantization Based on Flatness

arXiv CS.LG·20 mai 2026

Cette recherche modélise la relation entre l'erreur de quantification et les valeurs aberrantes dans les grands modèles de langage (LLM) et introduit une nouvelle métrique, Flatness, pour quantifier la distribution des valeurs aberrantes. Sur cette base, elle dérive une solution théorique optimale et propose la Quantification Diagonale Bidirectionnelle (BDQ) pour la quantification post-entraînement.

deep learning machine learning quantization AI LLM

Lire l'original ↗