Used ray tracing cores on my RTX 5070 Ti for LLM routing — 218x speedup, runs entirely on 1 consumer GPU
Um método inovador usa os RT Cores de GPUs para roteamento de especialistas em modelos MoE, resultando em aceleração de 218x e 731x menos VRAM para essa tarefa. A pesquisa também revela que os especialistas MoE se especializam por tipo sintático, e não por tópico como se acreditava.