Educational PyTorch repo for distributed training from scratch: DP, FSDP, TP, FSDP+TP, and PP [P]
Este repositorio educativo de PyTorch implementa varias técnicas de paralelismo para el entrenamiento distribuido, como DP, FSDP, TP y PP, desde cero. Expone la lógica de forward/backward y los colectivos explícitamente, permitiendo comprender directamente los algoritmos y patrones de comunicación sin abstracciones de alto nivel.