← heapsort-ai

FlashAttention

4 items

ARTICLE↑ trendingReddit r/MachineLearning·11/04/2026

FlashAttention (FA1–FA4) in PyTorch - educational implementations focused on algorithmic differences [P]

Un dépôt PyTorch mis à jour présente des implémentations éducatives des versions FA1 à FA4 de FlashAttention. L'objectif est de démontrer les différences et l'évolution algorithmique de la méthode, facilitant ainsi la compréhension de ses idées de conception sans aborder les détails matériels.

45
RESEARCHDEV.to AI·il y a 15j

Alibaba + Nanjing Univ Claim 9.36X Faster Million-Token Prefill vs FlashAttention-2

Des chercheurs d'Alibaba et de l'Université de Nanjing revendiquent une accélération de 9,36X pour le préremplissage d'un million de tokens dans l'inférence des LLM à long contexte, surpassant FlashAttention-2. Cette avancée s'attaque au goulot d'étranglement dominant en matière de latence dans le traitement des invites volumineuses, où le calcul de l'attention s'adapte quadratiquement.

27
ARTICLETogether AI Blog·01/04/2026

Inside the Together AI kernels team

L'équipe des kernels de Together AI, à l'origine d'innovations comme FlashAttention et ThunderKittens, œuvre pour optimiser l'écart entre le matériel GPU et l'IA en production. Leurs recherches visent à garantir une intégration et une performance efficaces de l'IA à grande échelle avec le matériel existant.

27