distributed training

4 items

ARTICLE↑ trendingReddit r/MachineLearning·4/12/2026

Educational PyTorch repo for distributed training from scratch: DP, FSDP, TP, FSDP+TP, and PP [P]

Dieses lehrreiche PyTorch-Repository implementiert verschiedene Techniken des verteilten Trainingsparallelismus, darunter DP, FSDP, TP und PP, von Grund auf neu. Es implementiert explizit die Vorwärts-/Rückwärtslogik und Kollektive, wodurch Benutzer die Algorithmen und Kommunikationsmuster ohne übergeordnete Abstraktionen direkt verstehen können.

distributed training FSDP deep learning Parallelism

RESEARCH↑ trendingReddit r/MachineLearning·4/16/2026

ResBM: a new transformer-based architecture for low-bandwidth pipeline-parallel training, achieving 128× activation compression [R]

Macrocosmos hat ResBM eingeführt, eine neue Transformator-basierte Architektur für Pipeline-paralleles Training mit geringer Bandbreite. Sie erreicht eine 128-fache Aktivierungskompression ohne signifikanten Konvergenzverlust im Vergleich zu unkomprimierten Baselines.

distributed training machine learning architecture model optimization Transformers

RESEARCHarXiv CS.LG·vor 21T

SignMuon: Communication-Efficient Distributed Muon Optimization

Sign-Muon ist ein neuer 1-Bit-Matrix-bewusster Optimierer, der für das kommunikationseffiziente verteilte Training großer neuronaler Netze vorgeschlagen wird. Er kombiniert die Zeichenaggregation mit einem Polarschritt-Framework, erreicht eine nicht-konvexe Rate von O(1/√T) und reduziert den stochastischen Term um 1/√M für M Arbeiter.

neural networks distributed training Optimization machine learning

ARTICLEDEV.to AI·4/12/2026

QIS vs DiLoCo: Why Google's Distributed Training Breakthrough and Quadratic Intelligence Swarm Solve Completely Different Problems

Dieser Artikel unterscheidet Googles verteilte Trainingslösungen (DiLoCo/DiPaCo) vom Quadratic Intelligence Swarm (QIS) Protokoll. Er hebt hervor, dass Googles Tools das großskalige Training einzelner Modelle optimieren, während QIS sich auf die dezentrale Weiterleitung von Lernergebnissen zwischen mehreren Institutionen konzentriert, ohne Daten zu zentralisieren.

DiLoCo distributed training Google DeepMind DiPaCo