ARTICLE↑ trending44
Built GPT-2, Llama 3, and DeepSeek from scratch in PyTorch - open source code + book [p]
Reddit r/MachineLearning·15 de abril de 2026
Un ingeniero senior pasó el último año implementando cinco arquitecturas LLM desde cero en PyTorch, incluyendo GPT-2, Llama 3 y DeepSeek. El proyecto culminó en código de fuente abierta y un libro detallado que documenta el proceso, explicando conceptos avanzados como KV cache, MoE y cuantificación FP8.
Leer original ↗