RESEARCHDEV.to AI·il y a 25j
Shared expert pool reduces parameters while maintaining performance
Les conceptions conventionnelles de Mixture-of-Experts augmentent les paramètres linéairement avec la profondeur en attribuant des ensembles d'experts privés à chaque couche de transformateur. Une nouvelle approche, UniPool, la remplace par un pool d'experts unique et partagé globalement d'où tous les routeurs tirent parti, réduisant considérablement le nombre total de paramètres d'experts tout en maintenant une qualité prédictive comparable.
29