← heapsort-ai

Deep learning architecture

1 items

RESEARCHDEV.to AI·vor 25T

Shared expert pool reduces parameters while maintaining performance

Konventionelle Mixture-of-Experts-Designs erhöhen die Parameter linear mit der Tiefe, indem sie jeder Transformer-Schicht eigene private Expertensätze zuweisen. Ein neuer Ansatz, UniPool, ersetzt dies durch einen einzigen, global geteilten Expertenpool, aus dem alle Router schöpfen, wodurch die Gesamtanzahl der Expertenparameter drastisch reduziert wird, während eine vergleichbare Vorhersagequalität erhalten bleibt.

29