RESEARCH27
EMO: Pretraining mixture of experts for emergent modularity
Hugging Face Blog·8. Mai 2026
EMO schlägt einen Vortrainingsansatz für Mixture of Experts (MoE)-Modelle vor, der darauf abzielt, emergente Modularität zu erreichen. Diese Methode konzentriert sich auf die Entwicklung spezialisierter Komponenten innerhalb des Modells während der Vortrainingsphase.
Original lesen ↗