RESEARCHarXiv CS.LG·20/04/2026
The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference
Cette recherche révèle que le cache KV dans l'inférence autorégressive des transformateurs, sous la précision FP16 standard, provoque une divergence systématique dans les séquences de tokens décodées en raison de différents ordres d'accumulation en virgule flottante. Un taux de divergence de 100% a été observé sur des modèles comme LLaMA-2-7B et Mistral-7B, le cache-ON offrant souvent une meilleure précision.
27