← heapsort-ai

Transformers

56 items

RESEARCHarXiv CS.CL·il y a 6j

Do Value Vectors in Deep Layers Need Context from the Residual Stream?

Des chercheurs ont découvert que les performances des modèles linguistiques peuvent s'améliorer significativement lorsque les couches profondes apprennent des vecteurs de valeur sans contexte, préservant les informations de jeton originales. Cela élimine le besoin de recalculer ou de mettre en cache ces valeurs de manière persistante, car la composante dépendante du contexte apporte peu de bénéfice supplémentaire.

27
RESEARCHarXiv CS.LG·il y a 15j

Tensor Cache: Eviction-conditioned Associative Memory for Transformers

Cet article introduit Tensor Cache, un cache à deux niveaux pour les Transformers, conçu pour optimiser les caches KV. Il associe une attention softmax à fenêtre glissante (L1) à une mémoire de poids rapide à produit extérieur de taille fixe (L2) pour gérer les tokens expulsés, améliorant l'accès aux preuves pertinentes en dehors de la fenêtre de contexte.

27
RESEARCHarXiv CS.LG·06/04/2026

FTimeXer: Frequency-aware Time-series Transformer with Exogenous variables for Robust Carbon Footprint Forecasting

FTimeXer é um Transformer de séries temporais com consciência de frequência proposto para previsão robusta da pegada de carbono da rede elétrica. Ele aborda a não-estacionariedade e entradas exógenas irregulares através de uma ramificação de frequência baseada em FFT e um esquema de treinamento robusto.

27
RESEARCHarXiv CS.AI·23/04/2026

Exploring Data Augmentation and Resampling Strategies for Transformer-Based Models to Address Class Imbalance in AI Scoring of Scientific Explanations in NGSS Classroom

Cette étude explore des stratégies d'augmentation de données pour améliorer la classification de texte basée sur des transformeurs dans l'évaluation automatique d'explications scientifiques d'élèves, s'attaquant au déséquilibre des classes. Elle évalue des méthodes telles que les réponses générées par GPT-4, EASE et ALP par rapport à une base de référence SciBERT, utilisant un ensemble de données de 1 466 réponses de lycéens.

27
NEWSTogether AI Blog·17/03/2026

Mamba-3

Mamba-3 est présenté comme un nouveau modèle à espace d'états (SSM) open-source, optimisé pour l'inférence. Il est plus rapide que les Transformers en décodage et plus performant que Mamba-2.

27
ARTICLEDEV.to AI·13/04/2026

Transformers — Deep Dive + Problem: Pacific Atlantic Water Flow

Ce contenu propose une immersion quotidienne dans les sujets d'apprentissage automatique, en se concentrant sur le modèle Transformer du chapitre Fondamentaux du PNL. Il explique le rôle du Transformer dans la gestion des données séquentielles, sa capacité à traiter l'information en parallèle et son importance pour des tâches comme la traduction linguistique, la synthèse de texte et l'analyse de sentiments.

24