RESEARCH27
The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference
arXiv CS.LG·20 avril 2026
Cette recherche révèle que le cache KV dans l'inférence autorégressive des transformateurs, sous la précision FP16 standard, provoque une divergence systématique dans les séquences de tokens décodées en raison de différents ordres d'accumulation en virgule flottante. Un taux de divergence de 100% a été observé sur des modèles comme LLaMA-2-7B et Mistral-7B, le cache-ON offrant souvent une meilleure précision.
Lire l'original ↗