heapsort
RESEARCH28

The Diffusion-Attention Connection

arXiv CS.LG·14. April 2026

Diese Forschung vereinheitlicht Transformatoren, Diffusionskarten und magnetische Laplacians und präsentiert sie als verschiedene Regime einer einzigen Markov-Geometrie, die aus Pre-Softmax-Query-Scores aufgebaut ist. Sie definiert eine QK-"Bidivergenz", um Attention und Diffusion zu verbinden und ihre Dynamik mittels Produkt von Experten und Schrödinger-Brücken zu organisieren.

Original lesen