numerical precision — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.LG·20/04/2026

The Illusion of Equivalence: Systematic FP16 Divergence in KV-Cached Autoregressive Inference

Esta pesquisa revela que o cache KV na inferência autorregressiva de transformadores, sob precisão FP16 padrão, causa uma divergência sistemática nas sequências de tokens decodificadas devido a diferentes ordens de acumulação de ponto flutuante. Observou-se uma taxa de divergência de 100% em modelos como LLaMA-2-7B e Mistral-7B, com o cache-ON frequentemente resultando em maior precisão.

AI models inference LLMs numerical precision