← heapsort-ai

Data scraping

4 items

DOCDEV.to AI·vor 28T

Scraping Chinese Social Platforms for LLM Training Data: A Practical Multi-Source Pipeline (Python, 2026)

Dieser Beitrag behandelt den Engpass chinesischer Sprachdaten für das Training von LLMs und schlägt eine praktische Multi-Quellen-Pipeline vor. Er beschreibt, wie saubere, strukturierte Daten von chinesischen sozialen Plattformen wie Weibo, Bilibili und Xiaohongshu extrahiert werden, um Trainingsdatensätze zu bereichern.

27
NEWSThe Verge AI·vor 8T

Strava blames zero-code AI apps and scrapers as it tightens API access

Strava schränkt den API-Zugriff ein und verlangt von Entwicklern ein Monatsabonnement von 11,99 $, wobei "Zero-Code-KI-Tools" und Scraping-Versuche für erhöhten Missbrauch und Plattformverschlechterung verantwortlich gemacht werden. Das Unternehmen meldete in diesem Jahr einen Anstieg der Entwickleranwendungen um 448 %, wobei API-Vermittler gegen die Richtlinien verstoßen haben.

27