heapsort
RESEARCH27

RaMP: Runtime-Aware Megakernel Polymorphism for Mixture-of-Experts

arXiv CS.LG·30 de abril de 2026

RaMP é um framework de despacho ciente do roteamento que otimiza a inferência de Mixture-of-Experts (MoE), superando perdas de desempenho de 10-70% de sistemas atuais. Ele utiliza uma análise de região de desempenho e um modelo de custo de onda para selecionar configurações de kernel ideais, entregando até 1.22x de aceleração e apenas 0.93% de erro médio em comparação com busca exaustiva.

Ler original