RESEARCHDEV.to AI·hace 25d
Shared expert pool reduces parameters while maintaining performance
Los diseños convencionales de Mixture-of-Experts aumentan los parámetros linealmente con la profundidad al asignar conjuntos de expertos privados a cada capa del transformador. Un nuevo enfoque, UniPool, lo reemplaza con un grupo de expertos único y compartido globalmente del que todos los enrutadores se benefician, reduciendo drásticamente el recuento total de parámetros de expertos mientras mantiene una calidad predictiva comparable.
29