← heapsort-ai

distributed training

4 items

ARTICLE↑ trendingReddit r/MachineLearning·12/4/2026

Educational PyTorch repo for distributed training from scratch: DP, FSDP, TP, FSDP+TP, and PP [P]

Este repositorio educativo de PyTorch implementa varias técnicas de paralelismo para el entrenamiento distribuido, como DP, FSDP, TP y PP, desde cero. Expone la lógica de forward/backward y los colectivos explícitamente, permitiendo comprender directamente los algoritmos y patrones de comunicación sin abstracciones de alto nivel.

43
RESEARCH↑ trendingReddit r/MachineLearning·16/4/2026

ResBM: a new transformer-based architecture for low-bandwidth pipeline-parallel training, achieving 128× activation compression [R]

Macrocosmos ha lanzado ResBM, una nueva arquitectura basada en transformadores para entrenamiento paralelo en pipeline de bajo ancho de banda. Logra una compresión de activación de 128 veces sin pérdida significativa en la convergencia.

42
ARTICLEDEV.to AI·12/4/2026

QIS vs DiLoCo: Why Google's Distributed Training Breakthrough and Quadratic Intelligence Swarm Solve Completely Different Problems

Este artículo diferencia las soluciones de entrenamiento distribuido de Google (DiLoCo/DiPaCo) del protocolo Quadratic Intelligence Swarm (QIS). Destaca que, mientras las herramientas de Google optimizan el entrenamiento de modelos únicos a gran escala, QIS se enfoca en el enrutamiento descentralizado de resultados de aprendizaje entre múltiples instituciones sin centralizar datos.

27