distributed training

4 items

ARTICLE↑ trendingReddit r/MachineLearning·12/4/2026

Educational PyTorch repo for distributed training from scratch: DP, FSDP, TP, FSDP+TP, and PP [P]

Este repositorio educativo de PyTorch implementa varias técnicas de paralelismo para el entrenamiento distribuido, como DP, FSDP, TP y PP, desde cero. Expone la lógica de forward/backward y los colectivos explícitamente, permitiendo comprender directamente los algoritmos y patrones de comunicación sin abstracciones de alto nivel.

distributed training FSDP deep learning Parallelism

RESEARCH↑ trendingReddit r/MachineLearning·16/4/2026

ResBM: a new transformer-based architecture for low-bandwidth pipeline-parallel training, achieving 128× activation compression [R]

Macrocosmos ha lanzado ResBM, una nueva arquitectura basada en transformadores para entrenamiento paralelo en pipeline de bajo ancho de banda. Logra una compresión de activación de 128 veces sin pérdida significativa en la convergencia.

distributed training machine learning architecture model optimization Transformers

RESEARCHarXiv CS.LG·hace 21d

SignMuon: Communication-Efficient Distributed Muon Optimization

Sign-Muon es un nuevo optimizador de 1 bit sensible a la matriz propuesto para el entrenamiento distribuido eficiente en comunicación de grandes redes neuronales. Combina la agregación de signos con un marco de paso polar, logrando una tasa no convexa de O(1/√T) y reduciendo el término estocástico en 1/√M para M trabajadores.

neural networks distributed training Optimization machine learning

ARTICLEDEV.to AI·12/4/2026

QIS vs DiLoCo: Why Google's Distributed Training Breakthrough and Quadratic Intelligence Swarm Solve Completely Different Problems

Este artículo diferencia las soluciones de entrenamiento distribuido de Google (DiLoCo/DiPaCo) del protocolo Quadratic Intelligence Swarm (QIS). Destaca que, mientras las herramientas de Google optimizan el entrenamiento de modelos únicos a gran escala, QIS se enfoca en el enrutamiento descentralizado de resultados de aprendizaje entre múltiples instituciones sin centralizar datos.

DiLoCo distributed training Google DeepMind DiPaCo