heapsort
RESEARCH27

Alibaba + Nanjing Univ Claim 9.36X Faster Million-Token Prefill vs FlashAttention-2

DEV.to AI·25 mai 2026

Des chercheurs d'Alibaba et de l'Université de Nanjing revendiquent une accélération de 9,36X pour le préremplissage d'un million de tokens dans l'inférence des LLM à long contexte, surpassant FlashAttention-2. Cette avancée s'attaque au goulot d'étranglement dominant en matière de latence dans le traitement des invites volumineuses, où le calcul de l'attention s'adapte quadratiquement.

Lire l'original