Absorber LLM: Harnessing Causal Synchronization for Test-Time Training
Los Transformers sufren altos costos computacionales y consumo de memoria para secuencias largas, mientras que las alternativas pierden dependencias a largo plazo. Absorber LLM propone una sincronización causal auto-supervisada para absorber contextos históricos en los parámetros, asegurando que un modelo sin contexto coincida con el original de contexto completo en generaciones futuras.