← heapsort-ai

LLM training

4 items

ARTICLEDEV.to AI·18/04/2026

How to Check If You

L'article explique pourquoi un site web pourrait ne pas apparaître dans les résultats de recherche IA en raison du blocage des crawlers IA comme GPTBot par `robots.txt`. Il souligne que de nombreux développeurs bloquent involontairement ces nouveaux crawlers, rendant leur contenu invisible pour une part croissante de la découverte d'informations.

29
RESEARCHarXiv CS.CL·08/04/2026

MegaTrain: Full Precision Training of 100B+ Parameter Large Language Models on a Single GPU

MegaTrain é um sistema focado em memória que permite o treinamento eficiente de modelos de linguagem grandes com mais de 100 bilhões de parâmetros em precisão total em uma única GPU. Ele armazena parâmetros na memória do host e utiliza otimizações como um motor de execução pipeline e templates de camada sem estado para superar gargalos de largura de banda e maximizar a utilização da GPU.

29
ARTICLEDEV.to AI·21/04/2026

A boy and his dog.

L'auteur décrit l'entraînement de "Scout", un modèle linguistique de 50 millions de paramètres, sur TinyStories, soulignant l'importance de la qualité des données et l'utilisation de sondes d'invite et de Claude Code pour l'évaluation. Il détaille la progression du modèle, notant sa capacité à se souvenir des sujets mais avec des difficultés de contexte et de répétition à 12 800 étapes.

27
DOCDEV.to AI·il y a 28j

Scraping Chinese Social Platforms for LLM Training Data: A Practical Multi-Source Pipeline (Python, 2026)

Cette publication aborde le goulot d'étranglement des données en chinois pour l'entraînement des LLM et propose un pipeline pratique multi-source. Elle détaille comment extraire des données propres et structurées de plateformes sociales chinoises comme Weibo, Bilibili et Xiaohongshu pour enrichir les ensembles de données d'entraînement.

27