RESEARCH27

The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference

arXiv CS.LG·20. April 2026

Diese Forschung zeigt, dass KV-Caching in der autoregressiven Transformer-Inferenz bei Standard-FP16-Genauigkeit eine systematische Divergenz in dekodierten Token-Sequenzen verursacht, bedingt durch unterschiedliche Gleitkomma-Akkumulationsreihenfolgen. Bei Modellen wie LLaMA-2-7B und Mistral-7B wurde eine 100%ige Token-Divergenzrate beobachtet, wobei Cache-ON oft zu höherer Genauigkeit führte.

AI models inference LLMs numerical precision Transformers

Original lesen ↗