ARTICLE27
Serving DeepSeek-V4: why million-token context is an inference systems problem
Together AI Blog·8 mai 2026
Le contexte de millions de jetons de DeepSeek-V4 pose un problème majeur aux systèmes d'inférence. Together AI explore le travail d'inférence derrière V4 sur NVIDIA HGX B200, y compris les layouts KV compressés et la mise en cache de préfixes pour les charges de travail à long contexte.
Lire l'original ↗