heapsort
RESEARCH29

GEM: Geometric Entropy Mixing for Optimal LLM Data Curation

arXiv CS.LG·27 mai 2026

Cet article présente GEM (Geometric Entropy Mixing), un nouveau cadre pour la curation de données LLM qui reformule le problème comme un problème variationnel sur l'hypersphère. GEM optimise la composition des données pour le pré-entraînement des LLM, surmontant les défauts de catégorisation et découvrant des structures sémantiques équilibrées.

Lire l'original