← heapsort-ai

Chinese language models

1 items

DOCDEV.to AI·il y a 28j

Scraping Chinese Social Platforms for LLM Training Data: A Practical Multi-Source Pipeline (Python, 2026)

Cette publication aborde le goulot d'étranglement des données en chinois pour l'entraînement des LLM et propose un pipeline pratique multi-source. Elle détaille comment extraire des données propres et structurées de plateformes sociales chinoises comme Weibo, Bilibili et Xiaohongshu pour enrichir les ensembles de données d'entraînement.

27