← heapsort-ai

social media data

3 items

DOCDEV.to AI·il y a 28j

Scraping Chinese Social Platforms for LLM Training Data: A Practical Multi-Source Pipeline (Python, 2026)

Cette publication aborde le goulot d'étranglement des données en chinois pour l'entraînement des LLM et propose un pipeline pratique multi-source. Elle détaille comment extraire des données propres et structurées de plateformes sociales chinoises comme Weibo, Bilibili et Xiaohongshu pour enrichir les ensembles de données d'entraînement.

27
DOCDEV.to AI·il y a 29j

Scraping Twitter/X: The 2026 Guide

Ce guide aborde la frustration liée aux murs de paiement pour l'accès aux données de Twitter/X, proposant une feuille de route pour un scraping efficace et légal en 2026. Il vise à permettre aux développeurs, chercheurs et spécialistes du marketing d'extraire des données cruciales de la plateforme sans se ruiner.

12
ARTICLEDEV.to AI·27/04/2026

How I'd Build an Audience Quality Audit Before Paying Creators

L'auteur décrit une approche pratique et structurée pour auditer la qualité de l'audience en marketing d'influence, visant à éviter le gaspillage d'argent en se concentrant sur des signaux d'engagement crédibles plutôt que sur des métriques superficielles ou de fausses solutions d'IA. L'article détaille comment construire cet audit en utilisant JavaScript et Python avec des données sociales publiques.

6