RESEARCHDEV.to AI·22d atrás
Three Months of Speed-Up Experiments on a 3090 Ti: Autoregressive DFlash MTP for Qwen3.6-27B
Este conteúdo detalha um experimento de três meses para otimizar a decodificação do modelo Qwen3.6-27B em uma GPU RTX 3090 Ti. O objetivo foi melhorar o desempenho de 43 para 39-49 tokens por segundo, utilizando uma nova técnica de decodificação especulativa (MTP) no llama.cpp.
27