RESEARCH27

Alibaba + Nanjing Univ Claim 9.36X Faster Million-Token Prefill vs FlashAttention-2

DEV.to AI·25 de maio de 2026

Pesquisadores da Alibaba e da Universidade de Nanjing anunciam uma aceleração de 9,36X no preenchimento de milhões de tokens para inferência de LLM de contexto longo, superando o FlashAttention-2. Esta inovação visa o gargalo de latência dominante no processamento de prompts extensos, onde o cálculo da atenção escala quadraticamente.

FlashAttention research AI performance LLM

Ler original ↗