RESEARCH27

RaMP: Runtime-Aware Megakernel Polymorphism for Mixture-of-Experts

arXiv CS.LG·30 de abril de 2026

RaMP es un framework de despacho consciente del enrutamiento que optimiza la inferencia de Mixture-of-Experts (MoE), abordando la pérdida de rendimiento del 10-70% de los sistemas actuales. Utiliza un análisis de región de rendimiento y un modelo de costo de onda para seleccionar configuraciones óptimas del kernel, logrando hasta 1.22x de aceleración y solo un 0.93% de error promedio.

deep learning AI optimization performance

Leer original ↗