RESEARCH29
Data Scaling as Progressive Coverage of a Predictive Contribution Spectrum
arXiv CS.CL·21. Mai 2026
Diese Forschung untersucht, ob reale Datenskalierungsgesetze durch eine progressive Abdeckung eines latenten prädiktiven Beitragsspektrums und nicht nur durch die Token-Frequenz bestimmt werden. Mithilfe eines Suffix-Automaten und eines globalen KL-Prädiktionsbeitragsspektrums findet die Studie eine starke Korrelation zwischen der Steigung des Spektrumsendes und dem Daten-Skalierungsexponenten von GPT-Lernenden, was zeigt, dass der effektive Trunkierungsrang logarithmisch skaliert.
Original lesen ↗