RESEARCH27
Alibaba + Nanjing Univ Claim 9.36X Faster Million-Token Prefill vs FlashAttention-2
DEV.to AI·25 mai 2026
Des chercheurs d'Alibaba et de l'Université de Nanjing revendiquent une accélération de 9,36X pour le préremplissage d'un million de tokens dans l'inférence des LLM à long contexte, surpassant FlashAttention-2. Cette avancée s'attaque au goulot d'étranglement dominant en matière de latence dans le traitement des invites volumineuses, où le calcul de l'attention s'adapte quadratiquement.
Lire l'original ↗