distributed training

4 items

ARTICLE↑ trendingReddit r/MachineLearning·12/04/2026

Educational PyTorch repo for distributed training from scratch: DP, FSDP, TP, FSDP+TP, and PP [P]

Este repositório educacional em PyTorch implementa diversas técnicas de paralelismo para treinamento distribuído, como DP, FSDP, TP e PP, do zero. Ele expõe a lógica de forward/backward e os coletivos explicitamente, permitindo a compreensão direta dos algoritmos e padrões de comunicação sem abstrações de alto nível.

distributed training FSDP deep learning Parallelism

RESEARCH↑ trendingReddit r/MachineLearning·16/04/2026

ResBM: a new transformer-based architecture for low-bandwidth pipeline-parallel training, achieving 128× activation compression [R]

Macrocosmos lançou ResBM, uma nova arquitetura de transformador para treinamento pipeline-paralelo de baixa largura de banda. Ela alcança uma compressão de ativação de 128x, mantendo a convergência sem perdas significativas.

distributed training machine learning architecture model optimization Transformers

RESEARCHarXiv CS.LG·21d atrás

SignMuon: Communication-Efficient Distributed Muon Optimization

Sign-Muon é um novo otimizador de 1 bit, ciente da matriz, proposto para o treinamento distribuído eficiente em comunicação de grandes redes neurais. Ele combina agregação de sinal com uma estrutura de passo polar, alcançando uma taxa não convexa de O(1/√T) e reduzindo o termo estocástico em 1/√M para M trabalhadores.

neural networks distributed training Optimization machine learning

ARTICLEDEV.to AI·12/04/2026

QIS vs DiLoCo: Why Google's Distributed Training Breakthrough and Quadratic Intelligence Swarm Solve Completely Different Problems

O artigo diferencia as soluções de treinamento distribuído da Google (DiLoCo/DiPaCo) do protocolo Quadratic Intelligence Swarm (QIS), destacando que abordam problemas fundamentalmente distintos. Enquanto as ferramentas da Google otimizam o treinamento de modelos únicos em larga escala, o QIS foca no roteamento de resultados de aprendizado entre múltiplas instituições sem centralizar dados.

DiLoCo distributed training Google DeepMind DiPaCo