heapsort
RESEARCH↑ trending42

Transformers with Selective Access to Early Representations [R]

Reddit r/MachineLearning·6 de mayo de 2026
Transformers with Selective Access to Early Representations [R]

El artículo presenta SATFormer, una nueva variante de Transformer que mejora la eficiencia al permitir que los "heads" re-accedan selectivamente a representaciones tempranas en lugar de copiarlas uniformemente. Este mecanismo de "gating" dependiente del contexto optimiza la reutilización de información, ofreciendo un mejor equilibrio entre eficiencia y rendimiento.

Leer original