← heapsort-ai

LLM training

4 items

ARTICLEDEV.to AI·18/4/2026

How to Check If You

El artículo explica por qué un sitio web podría no aparecer en los resultados de búsqueda de IA debido a que `robots.txt` bloquea rastreadores de IA como GPTBot. Destaca que muchos desarrolladores bloquean sin saber estos nuevos rastreadores, haciendo que su contenido sea invisible para un segmento creciente del descubrimiento de información.

29
RESEARCHarXiv CS.CL·8/4/2026

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

MegaTrain é um sistema focado em memória que permite o treinamento eficiente de modelos de linguagem grandes com mais de 100 bilhões de parâmetros em precisão total em uma única GPU. Ele armazena parâmetros na memória do host e utiliza otimizações como um motor de execução pipeline e templates de camada sem estado para superar gargalos de largura de banda e maximizar a utilização da GPU.

29
ARTICLEDEV.to AI·21/4/2026

A boy and his dog.

El autor describe el entrenamiento de "Scout", un modelo de lenguaje de 50M parámetros, en TinyStories, enfatizando la calidad de los datos y el uso de sondas de prompt y Claude Code para la evaluación. Detalla el progreso del modelo, señalando su capacidad para recordar sujetos pero con dificultades de contexto y repetición a los 12.800 pasos.

27
DOCDEV.to AI·hace 28d

Scraping Chinese Social Platforms for LLM Training Data: A Practical Multi-Source Pipeline (Python, 2026)

Esta publicación aborda el cuello de botella de los datos en chino para el entrenamiento de LLMs y propone un pipeline práctico de múltiples fuentes. Detalla cómo extraer datos limpios y estructurados de plataformas sociales chinas como Weibo, Bilibili y Xiaohongshu para enriquecer los conjuntos de datos de entrenamiento.

27