DOCDEV.to AI·il y a 28j
Scraping Chinese Social Platforms for LLM Training Data: A Practical Multi-Source Pipeline (Python, 2026)
Cette publication aborde le goulot d'étranglement des données en chinois pour l'entraînement des LLM et propose un pipeline pratique multi-source. Elle détaille comment extraire des données propres et structurées de plateformes sociales chinoises comme Weibo, Bilibili et Xiaohongshu pour enrichir les ensembles de données d'entraînement.
27