← heapsort-ai

LLM training

4 items

ARTICLEDEV.to AI·4/18/2026

How to Check If You

The article explains why a website might not appear in AI search results due to `robots.txt` blocking AI crawlers like GPTBot. It highlights that many developers unknowingly block these new crawlers, making their content invisible to a growing segment of information discovery.

29
RESEARCHarXiv CS.CL·4/8/2026

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

MegaTrain é um sistema focado em memória que permite o treinamento eficiente de modelos de linguagem grandes com mais de 100 bilhões de parâmetros em precisão total em uma única GPU. Ele armazena parâmetros na memória do host e utiliza otimizações como um motor de execução pipeline e templates de camada sem estado para superar gargalos de largura de banda e maximizar a utilização da GPU.

29
ARTICLEDEV.to AI·4/21/2026

A boy and his dog.

The author describes training "Scout," a 50M-parameter language model, on TinyStories, emphasizing data quality and using prompt probes and Claude Code for evaluation. They detail the model's progress, noting its ability to recall subjects but struggling with context and exhibiting repetition at 12,800 steps.

27