Transformer Models

7 items

ARTICLE↑ trendingReddit r/LocalLLaMA·15/04/2026

[P] Built GPT-2, Llama 3, and DeepSeek from scratch in PyTorch - open source code + book

Un nouveau livre et du code open source sont publiés, détaillant comment construire des architectures LLM modernes comme GPT-2, Llama 3 et DeepSeek à partir de zéro avec PyTorch. Il explique les modifications architecturales pour transformer GPT-2 en Llama 3 et implémente les fonctionnalités avancées de DeepSeek.

Open Source deep learning Transformer Models PyTorch

RESEARCHDEV.to AI·il y a 25j

Shared expert pool reduces parameters while maintaining performance

Les conceptions conventionnelles de Mixture-of-Experts augmentent les paramètres linéairement avec la profondeur en attribuant des ensembles d'experts privés à chaque couche de transformateur. Une nouvelle approche, UniPool, la remplace par un pool d'experts unique et partagé globalement d'où tous les routeurs tirent parti, réduisant considérablement le nombre total de paramètres d'experts tout en maintenant une qualité prédictive comparable.

Parameter efficiency Deep learning architecture AI optimization Mixture of Experts

RESEARCHarXiv CS.LG·il y a 20j

Simply Stabilizing the Loop via Fully Looped Transformer

Les Transformers en Boucle permettent d'améliorer les performances des modèles en réutilisant itérativement les mêmes blocs sans augmenter le nombre de paramètres, mais ils souffrent d'instabilité d'entraînement avec des itérations plus élevées. Cette instabilité est attribuée à l'oscillation du gradient et à l'explosion résiduelle, ce qui a conduit à la proposition du Fully Looped Transformer, qui introduit une architecture entièrement bouclée et une injection d'attention.

neural networks AI architecture deep learning model training

RESEARCHDEV.to AI·02/05/2026

Temporal-Channel Transformer for 3D Lidar-Based Video Object Detection inAutonomous Driving

Cette recherche introduit un Transformeur Temporel-Canal conçu pour la détection d'objets vidéo basée sur le Lidar 3D. Il vise à améliorer les capacités de perception des systèmes de conduite autonome en traitant des données Lidar séquentielles.

object detection computer vision autonomous driving LiDAR

RESEARCHarXiv CS.CL·07/04/2026

Noise Steering for Controlled Text Generation: Improving Diversity and Reading-Level Fidelity in Arabic Educational Story Generation

O artigo investiga a técnica de "noise steering", que injeta perturbações gaussianas em modelos Transformer durante a inferência, para gerar histórias educacionais em árabe. O método melhora a diversidade narrativa para avaliações de leitura de nível inicial, mantendo a qualidade e o nível de leitura.

Noise Steering NLP Diversity text generation Transformer Models

RESEARCHarXiv CS.LG·il y a 20j

Robust Basis Spline Decoupling for the Compression of Transformer Models

Ce travail introduit un cadre de découplage basé sur les splines B pour la compression des modèles Transformer. Il généralise les méthodes existantes basées sur des tenseurs, remédiant à leurs limitations en matière d'instabilité numérique ou d'expressivité.

neural networks machine learning AI compression

RESEARCHarXiv CS.LG·il y a 11j

One Mask to Rule Them All: On Hidden Facts after Editing and How to Find Them

L'article explore les mécanismes internes des méthodes d'édition de connaissances comme ROME et MEMIT, montrant que diverses modifications partagent une structure fonctionnelle commune dépendant d'un sous-ensemble spécifique de poids. Un masque binaire sur ces poids annule la plupart des éditions en éliminant la sur-attention dans les couches ultérieures, prouvant la nécessité de ce mécanisme pour le succès des éditions.

AI models MLP Weights machine learning Transformer Models