Run Qwen3.5-397B-A13B with vLLM and 8xR9700
Este documento detalla la ejecución optimizada del modelo Qwen3.5-397B-A17B-MXFP4 utilizando vLLM en GPUs RDNA4, como 8xR9700. Incluye un Dockerfile con parches de Triton e instrucciones para descargar el modelo y lanzar el contenedor de inferencia.