← heapsort-ai

Data scraping

4 items

DOCDEV.to AI·hace 28d

Scraping Chinese Social Platforms for LLM Training Data: A Practical Multi-Source Pipeline (Python, 2026)

Esta publicación aborda el cuello de botella de los datos en chino para el entrenamiento de LLMs y propone un pipeline práctico de múltiples fuentes. Detalla cómo extraer datos limpios y estructurados de plataformas sociales chinas como Weibo, Bilibili y Xiaohongshu para enriquecer los conjuntos de datos de entrenamiento.

27
NEWSThe Verge AI·hace 8d

Strava blames zero-code AI apps and scrapers as it tightens API access

Strava está restringiendo el acceso a su API y cobrando a los desarrolladores una suscripción mensual de $11.99, culpando a las herramientas de IA "cero código" y a los intentos de scraping por el uso indebido y la degradación de la plataforma. La compañía informó un aumento del 448% en las solicitudes de desarrolladores este año, con intermediarios de API violando los términos de la política.

27