← heapsort-ai

GPT-2

4 items

ARTICLE↑ trendingReddit r/MachineLearning·15/04/2026

Built GPT-2, Llama 3, and DeepSeek from scratch in PyTorch - open source code + book [p]

Un ingénieur senior a passé la dernière année à implémenter cinq architectures LLM à partir de zéro en PyTorch, notamment GPT-2, Llama 3 et DeepSeek. Le projet a abouti à du code open source et à un livre détaillé documentant le processus, expliquant des concepts avancés comme le cache KV, MoE et la quantification FP8.

44
RESEARCHarXiv CS.AI·il y a 11j

The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling

Le Cognitive Categorical Transformer (CCT) est une architecture de 306M de paramètres qui augmente un GPT-2 Small pré-entraîné avec des composants issus de la théorie des catégories et des inspirations des sciences cognitives. Il a obtenu une réduction relative de 12% de la perplexité sur WikiText-103 par rapport à une base de référence GPT-2 Small finement ajustée, 84% de l'amélioration étant attribuée au passage de messages simpliciaux GT-Full.

27