Takeaways & discussion about the DeepSeek V4 architecture
Este artículo analiza las novedades arquitectónicas de DeepSeek V4, destacando su sistema de atención híbrida (CSA + HCA) y las Manifold-Constrained Hyper-Connections. También aborda el entrenamiento FP4 QAT a escala de frontera, diferenciándolo de modelos anteriores.