← heapsort-ai

Transformer Models

7 items

ARTICLE↑ trendingReddit r/LocalLLaMA·15/04/2026

[P] Built GPT-2, Llama 3, and DeepSeek from scratch in PyTorch - open source code + book

Un nouveau livre et du code open source sont publiés, détaillant comment construire des architectures LLM modernes comme GPT-2, Llama 3 et DeepSeek à partir de zéro avec PyTorch. Il explique les modifications architecturales pour transformer GPT-2 en Llama 3 et implémente les fonctionnalités avancées de DeepSeek.

46
RESEARCHDEV.to AI·il y a 25j

Shared expert pool reduces parameters while maintaining performance

Les conceptions conventionnelles de Mixture-of-Experts augmentent les paramètres linéairement avec la profondeur en attribuant des ensembles d'experts privés à chaque couche de transformateur. Une nouvelle approche, UniPool, la remplace par un pool d'experts unique et partagé globalement d'où tous les routeurs tirent parti, réduisant considérablement le nombre total de paramètres d'experts tout en maintenant une qualité prédictive comparable.

29
RESEARCHarXiv CS.LG·il y a 20j

Simply Stabilizing the Loop via Fully Looped Transformer

Les Transformers en Boucle permettent d'améliorer les performances des modèles en réutilisant itérativement les mêmes blocs sans augmenter le nombre de paramètres, mais ils souffrent d'instabilité d'entraînement avec des itérations plus élevées. Cette instabilité est attribuée à l'oscillation du gradient et à l'explosion résiduelle, ce qui a conduit à la proposition du Fully Looped Transformer, qui introduit une architecture entièrement bouclée et une injection d'attention.

29
RESEARCHarXiv CS.CL·07/04/2026

Noise Steering for Controlled Text Generation: Improving Diversity and Reading-Level Fidelity in Arabic Educational Story Generation

O artigo investiga a técnica de "noise steering", que injeta perturbações gaussianas em modelos Transformer durante a inferência, para gerar histórias educacionais em árabe. O método melhora a diversidade narrativa para avaliações de leitura de nível inicial, mantendo a qualidade e o nível de leitura.

27
RESEARCHarXiv CS.LG·il y a 11j

One Mask to Rule Them All: On Hidden Facts after Editing and How to Find Them

L'article explore les mécanismes internes des méthodes d'édition de connaissances comme ROME et MEMIT, montrant que diverses modifications partagent une structure fonctionnelle commune dépendant d'un sous-ensemble spécifique de poids. Un masque binaire sur ces poids annule la plupart des éditions en éliminant la sur-attention dans les couches ultérieures, prouvant la nécessité de ce mécanisme pour le succès des éditions.

27