heapsort
ARTICLE27

Serving DeepSeek-V4: why million-token context is an inference systems problem

Together AI Blog·8. Mai 2026

DeepSeek-V4 macht den Millionen-Token-Kontext zu einem Problem für Inferenzsysteme. Together AI erforscht die Inferenzarbeit hinter V4 auf NVIDIA HGX B200, einschließlich komprimierter KV-Layouts und Präfix-Caching für lange Kontext-Workloads.

Original lesen