← heapsort-ai

Machine Learning Theory

4 items

RESEARCHarXiv CS.LG·il y a 6j

Pseudospectral Bounds for Transient Amplification in Coupled Gradient Descent

L'article développe une théorie pseudospectrale précise pour les systèmes de descente de gradient couplés avec des jacobiens triangulaires par blocs, pertinents pour l'optimisation bilivellulaire et l'entraînement contradictoire. Il établit des bornes pour l'amplification transitoire et caractérise les seuils de couplage critiques pour l'instabilité spectrale.

28
RESEARCHarXiv CS.LG·08/05/2026

Are Flat Minima an Illusion?

Cet article remet en question l'idée selon laquelle les minima plats conduisent intrinsèquement à une meilleure généralisation, montrant qu'une reparamétrisation préservant la fonction peut modifier drastiquement la netteté perçue d'un minimum. Il introduit la « faiblesse » — une mesure invariante à la reparamétrisation basée sur ce que fait le réseau — comme le véritable moteur de la généralisation, prouvant son optimalité minimax et sa corrélation avec les bornes PAC-Bayes.

27
RESEARCHarXiv CS.AI·il y a 29j

On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective

Cette recherche propose de distinguer l'élicitation de capacités de la création de capacités dans le post-entraînement des grands modèles linguistiques. Elle soutient que l'élicitation repondère les comportements existants au sein du support accessible d'un modèle, tandis que la création modifie ce support, développant cette idée à travers une perspective d'énergie libre.

27