← heapsort-ai

data scaling

1 items

RESEARCHarXiv CS.CL·vor 19T

Data Scaling as Progressive Coverage of a Predictive Contribution Spectrum

Diese Forschung untersucht, ob reale Datenskalierungsgesetze durch eine progressive Abdeckung eines latenten prädiktiven Beitragsspektrums und nicht nur durch die Token-Frequenz bestimmt werden. Mithilfe eines Suffix-Automaten und eines globalen KL-Prädiktionsbeitragsspektrums findet die Studie eine starke Korrelation zwischen der Steigung des Spektrumsendes und dem Daten-Skalierungsexponenten von GPT-Lernenden, was zeigt, dass der effektive Trunkierungsrang logarithmisch skaliert.

29