heapsort-ai
ARTICLE↑ trending41

Takeaways & discussion about the DeepSeek V4 architecture

Reddit r/LocalLLaMA·24 de abril de 2026

Este artigo discute as novidades arquitetônicas do DeepSeek V4, destacando seu sistema de atenção híbrida (CSA + HCA) e as Manifold-Constrained Hyper-Connections. Também aborda o treinamento FP4 QAT em escala de fronteira, diferenciando-o de modelos anteriores.

DeepSeekdeep learningattention mechanismsquantizationLLM architecture
Ler original