RESEARCH28
The Diffusion-Attention Connection
arXiv CS.LG·14 de abril de 2026
Esta investigación unifica Transformers, mapas de difusión y Laplacianos magnéticos, mostrándolos como diferentes regímenes de una única geometría de Markov. El estudio define una "bidivergencia" QK para conectar atención y difusión, organizando sus dinámicas con producto de expertos y puentes de Schrödinger.
Leer original ↗