RESEARCH↑ trending42

ResBM: a new transformer-based architecture for low-bandwidth pipeline-parallel training, achieving 128× activation compression [R]

Reddit r/MachineLearning·16 avril 2026

Macrocosmos a présenté ResBM, une nouvelle architecture de transformateur conçue pour l'entraînement parallèle en pipeline à faible bande passante. Elle permet une compression d'activation de 128x sans perte significative de convergence.

distributed training machine learning architecture model optimization Transformers

Lire l'original ↗