Self-Attention

2 items

DOCDEV.to AI·17/04/2026

Understanding Transformers Part 9: Stacking Self-Attention Layers

Cet article explique pourquoi les valeurs d'auto-attention remplacent les encodages positionnels originaux, car elles intègrent des informations contextuelles de tous les mots, clarifiant les relations. Il introduit ensuite l'empilement de plusieurs couches d'auto-attention, chacune avec des poids uniques, pour capturer des relations linguistiques plus complexes au sein des phrases et des paragraphes.

neural networks Self-Attention deep learning NLP

DOCDEV.to AI·16/04/2026

Understanding Transformers Part 8: Shared Weights in Self-Attention

L'article explique que les Transformers réutilisent le même ensemble de poids pour les requêtes, les clés et les valeurs à travers tous les mots d'entrée, permettant ainsi le calcul parallèle. Cette réutilisation rend le mécanisme d'auto-attention très efficace.

neural networks Self-Attention deep learning Parallel Computing