RESEARCH29
GEM: Geometric Entropy Mixing for Optimal LLM Data Curation
arXiv CS.LG·27 de mayo de 2026
Este artículo introduce GEM (Geometric Entropy Mixing), un nuevo marco para la curación de datos de LLM que reformula el problema como uno variacional en la hiperesfera. GEM optimiza la composición de datos para el preentrenamiento de LLMs, superando fallos de categorización y descubriendo estructuras semánticas equilibradas.
Leer original ↗