← heapsort-ai

Attention Mechanism

8 items

ARTICLE↑ trendingReddit r/MachineLearning·11/4/2026

FlashAttention (FA1–FA4) in PyTorch - educational implementations focused on algorithmic differences [P]

Un repositorio PyTorch actualizado presenta implementaciones educativas de las versiones FA1 a FA4 de FlashAttention. El objetivo es demostrar las diferencias y la evolución algorítmica del método, facilitando la comprensión de sus ideas de diseño sin profundizar en detalles de hardware.

45
RESEARCHarXiv CS.CL·hace 6d

Do Value Vectors in Deep Layers Need Context from the Residual Stream?

Investigadores descubrieron que el rendimiento de los modelos de lenguaje puede mejorar significativamente cuando las capas más profundas aprenden vectores de valor sin contexto, conservando la información original del token. Esto elimina la necesidad de recalcular o almacenar en caché persistentemente estos valores, ya que el componente dependiente del contexto aporta poco beneficio adicional.

27
RESEARCHarXiv CS.CL·13/4/2026

WAND: Windowed Attention and Knowledge Distillation for Efficient Autoregressive Text-to-Speech Models

WAND es un marco que adapta modelos autoregresivos de texto a voz (AR-TTS) para operar con complejidad computacional y de memoria constante. Lo logra separando la atención en mecanismos globales y de ventana deslizante local, y utilizando destilación de conocimiento para mantener la alta fidelidad de síntesis con una reducción significativa de memoria.

27
RESEARCHarXiv CS.LG·hace 22d

GQLA: Group-Query Latent Attention for Hardware-Adaptive Large Language Model Decoding

Este artículo introduce Group-Query Latent Attention (GQLA), una modificación de la Multi-head Latent Attention (MLA). GQLA expone dos rutas de decodificación algebraicamente equivalentes, permitiendo que un único conjunto de pesos entrenados se adapte eficientemente a diferentes plataformas de hardware como H100 y H20, sin necesidad de reentrenamiento.

27