← heapsort-ai

Machine Learning Theory

4 items

RESEARCHarXiv CS.LG·vor 5T

Pseudospectral Bounds for Transient Amplification in Coupled Gradient Descent

Die Arbeit entwickelt eine scharfe pseudospektrale Theorie für gekoppelte Gradientenabstiegs-Systeme mit block-dreieckigen Jacobi-Matrizen, die für Bilevel-Optimierung und adversarielles Training relevant sind. Sie liefert Schranken für transiente Verstärkung und charakterisiert kritische Kopplungsschwellen für spektrale Instabilität.

28
RESEARCHarXiv CS.LG·5/8/2026

Are Flat Minima an Illusion?

Dieser Artikel stellt die konventionelle Ansicht in Frage, dass flache Minima inhärent zu besserer Generalisierung führen, indem er zeigt, dass funktionserhaltende Reparameterisierung die wahrgenommene Schärfe eines Minimums drastisch verändern kann. Er führt „Schwäche“ ein – ein reparameterisierungsinvariantes Maß, das auf dem basiert, was das Netzwerk tut – als den eigentlichen Treiber der Generalisierung und beweist dessen Minimax-Optimalität und Korrelation mit PAC-Bayes-Grenzen.

27
RESEARCHarXiv CS.AI·vor 28T

On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective

Diese Forschung schlägt vor, zwischen der Evozierung von Fähigkeiten und der Schaffung von Fähigkeiten im Post-Training großer Sprachmodelle zu unterscheiden. Sie argumentiert, dass die Evozierung bestehende Verhaltensweisen innerhalb der zugänglichen Unterstützung eines Modells neu gewichtet, während die Schaffung diese Unterstützung selbst verändert, und entwickelt dies durch eine Freie-Energie-Perspektive.

27