distributed training

4 items

ARTICLE↑ trendingReddit r/MachineLearning·12/04/2026

Educational PyTorch repo for distributed training from scratch: DP, FSDP, TP, FSDP+TP, and PP [P]

Ce dépôt éducatif PyTorch implémente diverses techniques de parallélisme pour l'entraînement distribué (DP, FSDP, TP, PP) à partir de zéro. Il expose explicitement la logique de forward/backward et les collectifs, permettant de comprendre directement les algorithmes et les modèles de communication sans abstractions de haut niveau.

distributed training FSDP deep learning Parallelism

RESEARCH↑ trendingReddit r/MachineLearning·16/04/2026

ResBM: a new transformer-based architecture for low-bandwidth pipeline-parallel training, achieving 128× activation compression [R]

Macrocosmos a présenté ResBM, une nouvelle architecture de transformateur conçue pour l'entraînement parallèle en pipeline à faible bande passante. Elle permet une compression d'activation de 128x sans perte significative de convergence.

distributed training machine learning architecture model optimization Transformers

RESEARCHarXiv CS.LG·il y a 21j

SignMuon: Communication-Efficient Distributed Muon Optimization

Sign-Muon est un nouvel optimiseur matriciel à 1 bit proposé pour l'entraînement distribué économe en communication de grands réseaux neuronaux. Il combine l'agrégation de signes avec un cadre de pas polaire, atteignant un taux non convexe de O(1/√T) et réduisant le terme stochastique par 1/√M pour M travailleurs.

neural networks distributed training Optimization machine learning

ARTICLEDEV.to AI·12/04/2026

QIS vs DiLoCo: Why Google's Distributed Training Breakthrough and Quadratic Intelligence Swarm Solve Completely Different Problems

Cet article différencie les solutions d'entraînement distribué de Google (DiLoCo/DiPaCo) du protocole Quadratic Intelligence Swarm (QIS). Il souligne que les outils de Google optimisent l'entraînement de modèles uniques à grande échelle, tandis que QIS se concentre sur le routage décentralisé des résultats d'apprentissage entre plusieurs institutions sans centraliser les données.

DiLoCo distributed training Google DeepMind DiPaCo