RESEARCH27
Alibaba + Nanjing Univ Claim 9.36X Faster Million-Token Prefill vs FlashAttention-2
DEV.to AI·25 de maio de 2026
Pesquisadores da Alibaba e da Universidade de Nanjing anunciam uma aceleração de 9,36X no preenchimento de milhões de tokens para inferência de LLM de contexto longo, superando o FlashAttention-2. Esta inovação visa o gargalo de latência dominante no processamento de prompts extensos, onde o cálculo da atenção escala quadraticamente.
Ler original ↗