← heapsort-ai

GPT-2

4 items

ARTICLE↑ trendingReddit r/MachineLearning·4/15/2026

Built GPT-2, Llama 3, and DeepSeek from scratch in PyTorch - open source code + book [p]

Ein leitender Ingenieur verbrachte das letzte Jahr damit, fünf LLM-Architekturen, darunter GPT-2, Llama 3 und DeepSeek, von Grund auf in PyTorch zu implementieren. Das Projekt mündete in Open-Source-Code und einem detaillierten Buch, das den Prozess dokumentiert und fortgeschrittene Konzepte wie KV-Cache, MoE und FP8-Quantisierung erklärt.

44
RESEARCHarXiv CS.AI·vor 11T

The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling

Der Cognitive Categorical Transformer (CCT) ist eine 306M-Parameter-Architektur, die einen vortrainierten GPT-2 Small Backbone mit kognitiv fundierten Komponenten aus der Kategorientheorie und Inspirationen aus der Kognitionswissenschaft erweitert. Er erreichte eine relative Reduktion der Perplexität um 12 % auf WikiText-103 im Vergleich zu einer identisch feingetunten GPT-2 Small Baseline, wobei 84 % der Verbesserung dem GT-Full-Simplizial-Nachrichten-Passing zugeschrieben werden.

27