← heapsort-ai

data curation

3 items

RESEARCHarXiv CS.CL·il y a 8j

Exploring Autonomous Agentic Data Engineering for Model Specialization

Cet article formalise l'« Ingénierie de Données Agentique Autonome », une nouvelle tâche pour évaluer les LLM en tant qu'ingénieurs de données autonomes pour la spécialisation de modèles. Les expériences montrent que les ingénieurs de données LLM autonomes produisent des gains substantiels, avec GPT-5.2 améliorant un modèle étudiant de 57,29 %.

29
RESEARCHarXiv CS.LG·il y a 13j

GEM: Geometric Entropy Mixing for Optimal LLM Data Curation

Cet article présente GEM (Geometric Entropy Mixing), un nouveau cadre pour la curation de données LLM qui reformule le problème comme un problème variationnel sur l'hypersphère. GEM optimise la composition des données pour le pré-entraînement des LLM, surmontant les défauts de catégorisation et découvrant des structures sémantiques équilibrées.

29
RESEARCHarXiv CS.AI·il y a 5j

Can Generalist Agents Automate Data Curation?

Les agents de codage généralistes montrent un potentiel dans l'automatisation du processus intensif de curation des données pour le développement de l'IA, testé sur le nouveau benchmark Curation-Bench. Bien que les agents atteignent des bases solides, un "écart exécution-recherche" est observé où ils affinent principalement les politiques existantes au lieu d'explorer de nouvelles approches.

28