sparse attention

2 items

RESEARCHarXiv CS.CL·4/15/2026

LoSA: Locality Aware Sparse Attention for Block-Wise Diffusion Language Models

LoSA führt Locality Aware Sparse Attention ein, um speichergebundene Aufmerksamkeit und das KV-Inflationsproblem in blockweisen Diffusions-Sprachmodellen, insbesondere bei langen Kontexten, zu beheben. Es optimiert die Leistung durch Wiederverwendung von zwischengespeicherter Aufmerksamkeit für stabile Tokens und Anwenden von Sparse Attention nur auf aktive Tokens, wodurch die KV-Index-Ladung erheblich reduziert wird.

Memory Optimization Long Context KV Inflation sparse attention

ARTICLEDEV.to AI·4/15/2026

Gemma 4: Byte for byte, the most capable open models

Gemma 4 ist ein hochleistungsfähiges und parameter-effizientes offenes Sprachmodell, das Spitzenleistungen erzielt. Es nutzt eine Transformer-Architektur mit Innovationen wie Sparse Attention und FFN-Optimierungen, um Rechenkosten zu senken und die Inferenzgeschwindigkeit zu erhöhen.

Parameter efficiency Transformer Architecture Gemma 4 sparse attention