RESEARCH27
RaMP: Runtime-Aware Megakernel Polymorphism for Mixture-of-Experts
arXiv CS.LG·30. April 2026
RaMP ist ein routing-sensitives Dispatch-Framework zur Optimierung der Mixture-of-Experts (MoE)-Inferenz, das Leistungsverluste von 10-70% in aktuellen Systemen angeht. Es nutzt eine Leistungsbereichsanalyse und ein Wellenkostenmodell, um optimale Kernel-Konfigurationen auszuwählen, und erzielt bis zu 1.22x Kernel-Beschleunigung mit nur 0.93% mittlerem Bedauern im Vergleich zur vollständigen Suche.
Original lesen ↗