Transformers

56 items

RESEARCHarXiv CS.LG·il y a 27j

Vertex-Softmax: Tight Transformer Verification via Exact Softmax Optimization

L'article présente Vertex-Softmax, une nouvelle méthode pour la vérification certifiée de l'attention des transformateurs via l'optimisation exacte de la fonction softmax. Il prouve que l'optimum exact est atteint à un sommet de la boîte de contrainte, fournissant une borne plus stricte.

Optimization machine learning Verification AI

RESEARCHarXiv CS.CL·il y a 6j

Do Value Vectors in Deep Layers Need Context from the Residual Stream?

Des chercheurs ont découvert que les performances des modèles linguistiques peuvent s'améliorer significativement lorsque les couches profondes apprennent des vecteurs de valeur sans contexte, préservant les informations de jeton originales. Cela élimine le besoin de recalculer ou de mettre en cache ces valeurs de manière persistante, car la composante dépendante du contexte apporte peu de bénéfice supplémentaire.

neural networks LLMs deep learning Attention Mechanism

RESEARCHarXiv CS.LG·il y a 15j

Tensor Cache: Eviction-conditioned Associative Memory for Transformers

Cet article introduit Tensor Cache, un cache à deux niveaux pour les Transformers, conçu pour optimiser les caches KV. Il associe une attention softmax à fenêtre glissante (L1) à une mémoire de poids rapide à produit extérieur de taille fixe (L2) pour gérer les tokens expulsés, améliorant l'accès aux preuves pertinentes en dehors de la fenêtre de contexte.

Associative Memory deep learning AI Caching

RESEARCHarXiv CS.LG·il y a 14j

Towards Verifiable Transformers: Solver-Checkable Circuit Explanations

Cette recherche introduit les Transformers Vérifiables, un cadre pour convertir les circuits de Transformer localisés par tâche en assertions bornées et vérifiables par solveur. Il permet la vérification de propriétés telles que l'équivalence fonctionnelle et la robustesse via un encodage SMT direct ou médiatisé par substitut.

AI interpretability Formal verification Transformers

DOCDEV.to AI·16/04/2026

Understanding Transformers Part 8: Shared Weights in Self-Attention

L'article explique que les Transformers réutilisent le même ensemble de poids pour les requêtes, les clés et les valeurs à travers tous les mots d'entrée, permettant ainsi le calcul parallèle. Cette réutilisation rend le mécanisme d'auto-attention très efficace.

neural networks Self-Attention deep learning Parallel Computing

DOCHugging Face Blog·il y a 22j

PaddleOCR 3.5: Running OCR and Document Parsing Tasks with a Transformers Backend

PaddleOCR 3.5 permet l'exécution de tâches d'OCR et d'analyse de documents. Cette version tire parti d'un backend Transformers pour améliorer le traitement.

document parsing PaddleOCR AI OCR

ARTICLEDEV.to AI·26/04/2026

Your Transformer is Secretly Linear

Cet article explore l'idée que, malgré leur complexité, les modèles Transformer pourraient présenter des propriétés linéaires ou leur être équivalents sous certains aspects. La discussion approfondit la nature fondamentale de ces modèles d'IA et leurs implications.

neural networks deep learning machine learning AI

ARTICLEDEV.to AI·13/04/2026

Understanding Transformers Part 6: Calculating Similarity Between Queries and Keys

Cet article détaille le calcul de la similarité entre les requêtes (queries) et les clés (keys) dans les Transformers en utilisant le produit scalaire, montrant comment la similarité d'un mot avec lui-même est plus élevée qu'avec d'autres. Il explique que ces scores sont ensuite transformés en poids significatifs via une fonction softmax.

machine learning Dot Product NLP AI

RESEARCHarXiv CS.CL·07/04/2026

Why Attend to Everything? Focus is the Key

Este artigo apresenta o Focus, um método inovador que aprende quais pares de tokens são relevantes em mecanismos de atenção, em vez de aproximar todos. Ele melhora a perplexidade do domínio e oferece até 2x de aceleração na inferência, superando a atenção completa em diversas escalas e arquiteturas.

retrofit setting neural networks Focus method Perplexity

RESEARCHarXiv CS.LG·06/04/2026

FTimeXer: Frequency-aware Time-series Transformer with Exogenous variables for Robust Carbon Footprint Forecasting

FTimeXer é um Transformer de séries temporais com consciência de frequência proposto para previsão robusta da pegada de carbono da rede elétrica. Ele aborda a não-estacionariedade e entradas exógenas irregulares através de uma ramificação de frequência baseada em FFT e um esquema de treinamento robusto.

Dados Exógenos Pegada de Carbono machine learning IA

RESEARCHarXiv CS.AI·23/04/2026

Exploring Data Augmentation and Resampling Strategies for Transformer-Based Models to Address Class Imbalance in AI Scoring of Scientific Explanations in NGSS Classroom

Cette étude explore des stratégies d'augmentation de données pour améliorer la classification de texte basée sur des transformeurs dans l'évaluation automatique d'explications scientifiques d'élèves, s'attaquant au déséquilibre des classes. Elle évalue des méthodes telles que les réponses générées par GPT-4, EASE et ALP par rapport à une base de référence SciBERT, utilisant un ensemble de données de 1 466 réponses de lycéens.

machine learning Natural Language Processing education technology Data Augmentation

NEWSTogether AI Blog·17/03/2026

Mamba-3

Mamba-3 est présenté comme un nouveau modèle à espace d'états (SSM) open-source, optimisé pour l'inférence. Il est plus rapide que les Transformers en décodage et plus performant que Mamba-2.

Open Source inference Mamba-3 SSM

ARTICLEHugging Face (YouTube)·16/04/2026

RoPE: Understanding Rotary Positional Embeddings in transformers

Ce contenu explore les Plongements Positionnels Rotatifs (RoPE) utilisés dans les architectures de transformateurs. Il vise à approfondir la compréhension du fonctionnement de RoPE et de son importance dans la modélisation de séquences.

RoPE AI models Positional Embeddings deep learning

RoPE: Understanding Rotary Positional Embeddings in transformers

DOCStatQuest (YouTube)·18/11/2024

Encoder-Only Transformers (like BERT) for RAG, Clearly Explained!!!

Ce contenu explique clairement les Transformers uniquement à encodeur, comme BERT, et leur application dans les systèmes de Génération Augmentée par Récupération (RAG). Il aborde les concepts fondamentaux pour comprendre comment ces modèles contribuent à l'efficacité du RAG.

BERT RAG AI Explanation Encoder-Only Models

Encoder-Only Transformers (like BERT) for RAG, Clearly Explained!!!

ARTICLEDEV.to AI·13/04/2026

Transformers — Deep Dive + Problem: Pacific Atlantic Water Flow

Ce contenu propose une immersion quotidienne dans les sujets d'apprentissage automatique, en se concentrant sur le modèle Transformer du chapitre Fondamentaux du PNL. Il explique le rôle du Transformer dans la gestion des données séquentielles, sa capacité à traiter l'information en parallèle et son importance pour des tâches comme la traduction linguistique, la synthèse de texte et l'analyse de sentiments.

Sequential Data machine learning NLP RNNs

ARTICLEHugging Face Blog·26/02/2026

Mixture of Experts (MoEs) in Transformers

Este conteúdo aborda o conceito de Mixture of Experts (MoEs) e sua aplicação em arquiteturas de Transformers. A técnica visa otimizar a eficiência e o desempenho de modelos de inteligência artificial.

neural networks machine learning MoE AI