Built GPT-2, Llama 3, and DeepSeek from scratch in PyTorch - open source code + book [p]
Um engenheiro sênior passou o último ano implementando cinco arquiteturas LLM do zero em PyTorch, incluindo GPT-2, Llama 3 e DeepSeek. O projeto resultou em código-fonte aberto e um livro detalhado que documenta o processo, explicando conceitos avançados como KV cache, MoE e quantização FP8.
