← heapsort-ai

Transformer Models

7 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/15/2026

[P] Built GPT-2, Llama 3, and DeepSeek from scratch in PyTorch - open source code + book

Ein neues Buch und Open-Source-Code wurden veröffentlicht, die detailliert beschreiben, wie moderne LLM-Architekturen wie GPT-2, Llama 3 und DeepSeek von Grund auf in PyTorch erstellt werden können. Es erläutert die architektonischen Änderungen, die zur Transformation von GPT-2 in Llama 3 erforderlich sind, und implementiert die erweiterten Funktionen von DeepSeek.

46
RESEARCHDEV.to AI·vor 25T

Shared expert pool reduces parameters while maintaining performance

Konventionelle Mixture-of-Experts-Designs erhöhen die Parameter linear mit der Tiefe, indem sie jeder Transformer-Schicht eigene private Expertensätze zuweisen. Ein neuer Ansatz, UniPool, ersetzt dies durch einen einzigen, global geteilten Expertenpool, aus dem alle Router schöpfen, wodurch die Gesamtanzahl der Expertenparameter drastisch reduziert wird, während eine vergleichbare Vorhersagequalität erhalten bleibt.

29
RESEARCHarXiv CS.LG·vor 20T

Simply Stabilizing the Loop via Fully Looped Transformer

Looped Transformer bieten eine Möglichkeit, die Modellleistung durch iterative Wiederverwendung von Blöcken ohne Erhöhung der Parameteranzahl zu verbessern, leiden jedoch unter Trainingsinstabilität bei höheren Schleifeniterationen. Diese Instabilität wird auf Gradientenoszillation und Restexplosion zurückgeführt, was zur Entwicklung des Fully Looped Transformer führte, der eine vollständig verschachtelte Architektur und Attention Injection einführt.

29
RESEARCHarXiv CS.CL·4/7/2026

Noise Steering for Controlled Text Generation: Improving Diversity and Reading-Level Fidelity in Arabic Educational Story Generation

O artigo investiga a técnica de "noise steering", que injeta perturbações gaussianas em modelos Transformer durante a inferência, para gerar histórias educacionais em árabe. O método melhora a diversidade narrativa para avaliações de leitura de nível inicial, mantendo a qualidade e o nível de leitura.

27
RESEARCHarXiv CS.LG·vor 11T

One Mask to Rule Them All: On Hidden Facts after Editing and How to Find Them

Die Studie untersucht die internen Mechanismen von Wissensbearbeitungsmethoden wie ROME und MEMIT und stellt fest, dass verschiedene Bearbeitungen eine gemeinsame Funktionsstruktur aufweisen, die von einer bestimmten Untergruppe von Gewichten abhängt. Eine binäre Maske über diesen Gewichten macht die meisten Bearbeitungen rückgängig, indem sie Überaufmerksamkeit in späteren Schichten eliminiert, was die Notwendigkeit dieses Mechanismus für den Bearbeitungserfolg beweist.

27