ARTICLE27
Serving DeepSeek-V4: why million-token context is an inference systems problem
Together AI Blog·8. Mai 2026
DeepSeek-V4 macht den Millionen-Token-Kontext zu einem Problem für Inferenzsysteme. Together AI erforscht die Inferenzarbeit hinter V4 auf NVIDIA HGX B200, einschließlich komprimierter KV-Layouts und Präfix-Caching für lange Kontext-Workloads.
Original lesen ↗