ARTICLE↑ trending44
Built GPT-2, Llama 3, and DeepSeek from scratch in PyTorch - open source code + book [p]
Reddit r/MachineLearning·15 avril 2026
Un ingénieur senior a passé la dernière année à implémenter cinq architectures LLM à partir de zéro en PyTorch, notamment GPT-2, Llama 3 et DeepSeek. Le projet a abouti à du code open source et à un livre détaillé documentant le processus, expliquant des concepts avancés comme le cache KV, MoE et la quantification FP8.
Lire l'original ↗