RESEARCH29
Data Scaling as Progressive Coverage of a Predictive Contribution Spectrum
arXiv CS.CL·21 de maio de 2026
Esta pesquisa investiga se as leis de escala de dados reais são governadas por uma cobertura progressiva de um espectro de contribuição preditiva latente, em vez de apenas pela frequência de tokens. Utilizando um autômato de sufixos e um espectro de contribuição preditiva global-KL, o estudo encontra uma forte correlação entre a inclinação da cauda do espectro e o expoente de escala de dados de aprendizes GPT, mostrando que a classificação de truncamento eficaz escala logaritmicamente.
Ler original ↗