RESEARCHarXiv CS.CL·vor 19T
Data Scaling as Progressive Coverage of a Predictive Contribution Spectrum
Diese Forschung untersucht, ob reale Datenskalierungsgesetze durch eine progressive Abdeckung eines latenten prädiktiven Beitragsspektrums und nicht nur durch die Token-Frequenz bestimmt werden. Mithilfe eines Suffix-Automaten und eines globalen KL-Prädiktionsbeitragsspektrums findet die Studie eine starke Korrelation zwischen der Steigung des Spektrumsendes und dem Daten-Skalierungsexponenten von GPT-Lernenden, was zeigt, dass der effektive Trunkierungsrang logarithmisch skaliert.
29