Data Scaling as Progressive Coverage of a Predictive Contribution Spectrum
Esta investigación explora si las leyes de escalamiento de datos reales están gobernadas por una cobertura progresiva de un espectro latente de contribución predictiva, en lugar de solo por la frecuencia de tokens. Utilizando un autómata de sufijos y un espectro de contribución predictiva global-KL, el estudio encuentra una fuerte correlación entre la pendiente de la cola del espectro y el exponente de escalamiento de datos de los aprendices GPT, demostrando que el rango de truncamiento efectivo escala logarítmicamente.