← heapsort-ai

LLM training

4 items

ARTICLEDEV.to AI·4/18/2026

How to Check If You

Der Artikel erklärt, warum eine Website in KI-Suchergebnissen möglicherweise nicht erscheint, da `robots.txt` KI-Crawler wie GPTBot blockiert. Er hebt hervor, dass viele Entwickler diese neuen Crawler unwissentlich blockieren, wodurch ihre Inhalte für ein wachsendes Segment der Informationsfindung unsichtbar werden.

29
RESEARCHarXiv CS.CL·4/8/2026

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

MegaTrain é um sistema focado em memória que permite o treinamento eficiente de modelos de linguagem grandes com mais de 100 bilhões de parâmetros em precisão total em uma única GPU. Ele armazena parâmetros na memória do host e utiliza otimizações como um motor de execução pipeline e templates de camada sem estado para superar gargalos de largura de banda e maximizar a utilização da GPU.

29
ARTICLEDEV.to AI·4/21/2026

A boy and his dog.

Der Autor beschreibt das Training von „Scout“, einem Sprachmodell mit 50 Millionen Parametern, auf TinyStories, wobei die Datenqualität und die Verwendung von Prompt-Sonden sowie Claude Code zur Bewertung hervorgehoben werden. Er detailliert den Fortschritt des Modells und stellt dessen Fähigkeit fest, Subjekte zu erinnern, aber mit Kontextschwierigkeiten und Wiederholungen bei 12.800 Schritten.

27
DOCDEV.to AI·vor 28T

Scraping Chinese Social Platforms for LLM Training Data: A Practical Multi-Source Pipeline (Python, 2026)

Dieser Beitrag behandelt den Engpass chinesischer Sprachdaten für das Training von LLMs und schlägt eine praktische Multi-Quellen-Pipeline vor. Er beschreibt, wie saubere, strukturierte Daten von chinesischen sozialen Plattformen wie Weibo, Bilibili und Xiaohongshu extrahiert werden, um Trainingsdatensätze zu bereichern.

27