ARTICLE27
Serving DeepSeek-V4: why million-token context is an inference systems problem
Together AI Blog·8 de maio de 2026
O DeepSeek-V4 transforma o contexto de milhões de tokens num desafio para os sistemas de inferência. A Together AI explora o trabalho de inferência por trás do V4 em NVIDIA HGX B200, incluindo layouts KV compactados e cache de prefixo para cargas de trabalho de contexto longo.
Ler original ↗