Self-Attention

2 items

DOCDEV.to AI·17/04/2026

Understanding Transformers Part 9: Stacking Self-Attention Layers

Este artigo explica por que os valores de autoatenção substituem as codificações posicionais originais, integrando informações contextuais de todas as palavras para esclarecer relações. Em seguida, introduz o empilhamento de múltiplas camadas de autoatenção, cada uma com pesos únicos, para capturar relações linguísticas mais complexas em frases e parágrafos.

neural networks Self-Attention deep learning NLP

DOCDEV.to AI·16/04/2026

Understanding Transformers Part 8: Shared Weights in Self-Attention

O artigo explica que os Transformers reutilizam o mesmo conjunto de pesos para consultas, chaves e valores em todas as palavras de entrada, o que permite a computação paralela. Esta reutilização torna o mecanismo de autoatenção altamente eficiente.

neural networks Self-Attention deep learning Parallel Computing