Transformer Models

7 items

ARTICLE↑ trendingReddit r/LocalLLaMA·4/15/2026

[P] Built GPT-2, Llama 3, and DeepSeek from scratch in PyTorch - open source code + book

Ein neues Buch und Open-Source-Code wurden veröffentlicht, die detailliert beschreiben, wie moderne LLM-Architekturen wie GPT-2, Llama 3 und DeepSeek von Grund auf in PyTorch erstellt werden können. Es erläutert die architektonischen Änderungen, die zur Transformation von GPT-2 in Llama 3 erforderlich sind, und implementiert die erweiterten Funktionen von DeepSeek.

Open Source deep learning Transformer Models PyTorch

RESEARCHDEV.to AI·vor 25T

Shared expert pool reduces parameters while maintaining performance

Konventionelle Mixture-of-Experts-Designs erhöhen die Parameter linear mit der Tiefe, indem sie jeder Transformer-Schicht eigene private Expertensätze zuweisen. Ein neuer Ansatz, UniPool, ersetzt dies durch einen einzigen, global geteilten Expertenpool, aus dem alle Router schöpfen, wodurch die Gesamtanzahl der Expertenparameter drastisch reduziert wird, während eine vergleichbare Vorhersagequalität erhalten bleibt.

Parameter efficiency Deep learning architecture AI optimization Mixture of Experts

RESEARCHarXiv CS.LG·vor 20T

Simply Stabilizing the Loop via Fully Looped Transformer

Looped Transformer bieten eine Möglichkeit, die Modellleistung durch iterative Wiederverwendung von Blöcken ohne Erhöhung der Parameteranzahl zu verbessern, leiden jedoch unter Trainingsinstabilität bei höheren Schleifeniterationen. Diese Instabilität wird auf Gradientenoszillation und Restexplosion zurückgeführt, was zur Entwicklung des Fully Looped Transformer führte, der eine vollständig verschachtelte Architektur und Attention Injection einführt.

neural networks AI architecture deep learning model training

RESEARCHDEV.to AI·5/2/2026

Temporal-Channel Transformer for 3D Lidar-Based Video Object Detection inAutonomous Driving

Diese Forschung stellt einen Temporal-Channel Transformer für die 3D-Lidar-basierte Video-Objekterkennung vor. Ziel ist es, die Wahrnehmungsfähigkeiten von autonomen Fahrsystemen durch die Verarbeitung sequenzieller Lidar-Daten zu verbessern.

object detection computer vision autonomous driving LiDAR

RESEARCHarXiv CS.CL·4/7/2026

Noise Steering for Controlled Text Generation: Improving Diversity and Reading-Level Fidelity in Arabic Educational Story Generation

O artigo investiga a técnica de "noise steering", que injeta perturbações gaussianas em modelos Transformer durante a inferência, para gerar histórias educacionais em árabe. O método melhora a diversidade narrativa para avaliações de leitura de nível inicial, mantendo a qualidade e o nível de leitura.

Noise Steering NLP Diversity text generation Transformer Models

RESEARCHarXiv CS.LG·vor 20T

Robust Basis Spline Decoupling for the Compression of Transformer Models

Diese Arbeit stellt ein B-Spline-basiertes Entkopplungs-Framework zur Komprimierung von Transformer-Modellen vor. Es verallgemeinert bestehende Tensor-basierte Ansätze und behebt deren Einschränkungen hinsichtlich numerischer Instabilität oder begrenzter Ausdruckskraft.

neural networks machine learning AI compression

RESEARCHarXiv CS.LG·vor 11T

One Mask to Rule Them All: On Hidden Facts after Editing and How to Find Them

Die Studie untersucht die internen Mechanismen von Wissensbearbeitungsmethoden wie ROME und MEMIT und stellt fest, dass verschiedene Bearbeitungen eine gemeinsame Funktionsstruktur aufweisen, die von einer bestimmten Untergruppe von Gewichten abhängt. Eine binäre Maske über diesen Gewichten macht die meisten Bearbeitungen rückgängig, indem sie Überaufmerksamkeit in späteren Schichten eliminiert, was die Notwendigkeit dieses Mechanismus für den Bearbeitungserfolg beweist.

AI models MLP Weights machine learning Transformer Models