ARTICLETogether AI Blog·8/5/2026
Serving DeepSeek-V4: why million-token context is an inference systems problem
El contexto de millones de tokens de DeepSeek-V4 convierte esto en un problema para los sistemas de inferencia. Together AI explora el trabajo de inferencia detrás de V4 en NVIDIA HGX B200, incluyendo layouts KV comprimidos y caché de prefijos para cargas de trabajo de contexto largo.
27