← heapsort-ai

Attention Mechanism

8 items

ARTICLE↑ trendingReddit r/MachineLearning·11/04/2026

FlashAttention (FA1–FA4) in PyTorch - educational implementations focused on algorithmic differences [P]

Un dépôt PyTorch mis à jour présente des implémentations éducatives des versions FA1 à FA4 de FlashAttention. L'objectif est de démontrer les différences et l'évolution algorithmique de la méthode, facilitant ainsi la compréhension de ses idées de conception sans aborder les détails matériels.

45
RESEARCHarXiv CS.CL·il y a 6j

Do Value Vectors in Deep Layers Need Context from the Residual Stream?

Des chercheurs ont découvert que les performances des modèles linguistiques peuvent s'améliorer significativement lorsque les couches profondes apprennent des vecteurs de valeur sans contexte, préservant les informations de jeton originales. Cela élimine le besoin de recalculer ou de mettre en cache ces valeurs de manière persistante, car la composante dépendante du contexte apporte peu de bénéfice supplémentaire.

27
RESEARCHarXiv CS.CL·13/04/2026

WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models

WAND est un framework qui adapte les modèles AR-TTS pré-entraînés pour fonctionner avec une complexité computationnelle et de mémoire constante. Il sépare l'attention en mécanismes globaux et de fenêtre glissante locale, utilisant la distillation de connaissances pour maintenir une synthèse de haute fidélité tout en réduisant considérablement la mémoire cache KV.

27
RESEARCHarXiv CS.LG·il y a 22j

GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

Cet article présente la Group-Query Latent Attention (GQLA), une modification de la Multi-head Latent Attention (MLA). La GQLA expose deux chemins de décodage algébriquement équivalents, permettant à un seul ensemble de poids entraînés de s'adapter efficacement à différentes plateformes matérielles comme le H100 et le H20, sans réentraînement.

27