heapsort
RESEARCH27

RaMP: Runtime-Aware Megakernel Polymorphism for Mixture-of-Experts

arXiv CS.LG·30. April 2026

RaMP ist ein routing-sensitives Dispatch-Framework zur Optimierung der Mixture-of-Experts (MoE)-Inferenz, das Leistungsverluste von 10-70% in aktuellen Systemen angeht. Es nutzt eine Leistungsbereichsanalyse und ein Wellenkostenmodell, um optimale Kernel-Konfigurationen auszuwählen, und erzielt bis zu 1.22x Kernel-Beschleunigung mit nur 0.93% mittlerem Bedauern im Vergleich zur vollständigen Suche.

Original lesen