RESEARCH27

RaMP: Runtime-Aware Megakernel Polymorphism for Mixture-of-Experts

arXiv CS.LG·30 avril 2026

RaMP est un framework de dispatch conscient du routage qui optimise l'inférence Mixture-of-Experts (MoE), compensant une perte de débit de 10-70% dans les systèmes actuels. Il utilise une analyse des régions de performance et un modèle de coût d'onde pour sélectionner les configurations de noyau optimales, atteignant jusqu'à 1.22x d'accélération et seulement 0.93% de regret moyen.

deep learning AI optimization performance

Lire l'original ↗