← heapsort-ai

Data scraping

4 items

DOCDEV.to AI·il y a 28j

Scraping Chinese Social Platforms for LLM Training Data: A Practical Multi-Source Pipeline (Python, 2026)

Cette publication aborde le goulot d'étranglement des données en chinois pour l'entraînement des LLM et propose un pipeline pratique multi-source. Elle détaille comment extraire des données propres et structurées de plateformes sociales chinoises comme Weibo, Bilibili et Xiaohongshu pour enrichir les ensembles de données d'entraînement.

27
NEWSThe Verge AI·il y a 8j

Strava blames zero-code AI apps and scrapers as it tightens API access

Strava restreint l'accès à son API et facture aux développeurs un abonnement mensuel de 11,99 $, accusant les outils d'IA "sans code" et les tentatives de scraping d'une utilisation abusive et d'une dégradation de la plateforme. L'entreprise a signalé une augmentation de 448 % des candidatures de développeurs cette année, avec des intermédiaires d'API violant les conditions de la politique.

27