heapsort
RESEARCH28

The Diffusion-Attention Connection

arXiv CS.LG·14 avril 2026

Cette recherche unifie les Transformers, les cartes de diffusion et les Laplaciens magnétiques, les présentant comme différents régimes d'une géométrie de Markov unique. Elle définit une "bidivergence" QK pour relier l'attention et la diffusion, et organise leurs dynamiques avec le produit d'experts et les ponts de Schrödinger.

Lire l'original