Run Qwen3.5-397B-A13B with vLLM and 8xR9700
Ce document détaille l'exécution optimisée du modèle Qwen3.5-397B-A17B-MXFP4 à l'aide de vLLM sur des GPU RDNA4, tels que 8xR9700. Il fournit un Dockerfile avec des correctifs Triton et des instructions pour télécharger le modèle et lancer le conteneur d'inférence.