Self-Attention

2 items

DOCDEV.to AI·4/17/2026

Understanding Transformers Part 9: Stacking Self-Attention Layers

Dieser Artikel erklärt, warum Selbstaufmerksamkeitswerte die ursprünglichen Positional Encodings ersetzen, da sie kontextuelle Informationen aller Wörter integrieren und Beziehungen verdeutlichen. Anschließend wird das Stapeln mehrerer Selbstaufmerksamkeitsschichten, jeweils mit einzigartigen Gewichten, vorgestellt, um komplexere sprachliche Beziehungen innerhalb von Sätzen und Absätzen zu erfassen.

neural networks Self-Attention deep learning NLP

DOCDEV.to AI·4/16/2026

Understanding Transformers Part 8: Shared Weights in Self-Attention

Der Artikel erklärt, dass Transformatoren für Queries, Keys und Values denselben Satz von Gewichten über alle Eingabewörter hinweg wiederverwenden, was parallele Berechnungen ermöglicht. Diese Wiederverwendbarkeit macht den Self-Attention-Mechanismus äußerst effizient.

neural networks Self-Attention deep learning Parallel Computing