heapsort
ARTICLE27

Serving DeepSeek-V4: why million-token context is an inference systems problem

Together AI Blog·8 mai 2026

Le contexte de millions de jetons de DeepSeek-V4 pose un problème majeur aux systèmes d'inférence. Together AI explore le travail d'inférence derrière V4 sur NVIDIA HGX B200, y compris les layouts KV compressés et la mise en cache de préfixes pour les charges de travail à long contexte.

Lire l'original