RESEARCHarXiv CS.LG·20/4/2026
The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference
Esta investigación revela que el caché KV en la inferencia autorregresiva de transformadores, bajo precisión FP16 estándar, provoca una divergencia sistemática en las secuencias de tokens decodificadas debido a diferentes órdenes de acumulación de punto flotante. Se observó una tasa de divergencia del 100% en modelos como LLaMA-2-7B y Mistral-7B, con el caché-ON a menudo resultando en mayor precisión.
27