RESEARCH27
RaMP: Runtime-Aware Megakernel Polymorphism for Mixture-of-Experts
arXiv CS.LG·30 avril 2026
RaMP est un framework de dispatch conscient du routage qui optimise l'inférence Mixture-of-Experts (MoE), compensant une perte de débit de 10-70% dans les systèmes actuels. Il utilise une analyse des régions de performance et un modèle de coût d'onde pour sélectionner les configurations de noyau optimales, atteignant jusqu'à 1.22x d'accélération et seulement 0.93% de regret moyen.
Lire l'original ↗