RESEARCHDEV.to AI·vor 25T
Shared expert pool reduces parameters while maintaining performance
Konventionelle Mixture-of-Experts-Designs erhöhen die Parameter linear mit der Tiefe, indem sie jeder Transformer-Schicht eigene private Expertensätze zuweisen. Ein neuer Ansatz, UniPool, ersetzt dies durch einen einzigen, global geteilten Expertenpool, aus dem alle Router schöpfen, wodurch die Gesamtanzahl der Expertenparameter drastisch reduziert wird, während eine vergleichbare Vorhersagequalität erhalten bleibt.
29