← heapsort-ai

Machine Learning Theory

4 items

RESEARCHarXiv CS.LG·hace 5d

Pseudospectral Bounds for Transient Amplification in Coupled Gradient Descent

El artículo desarrolla una teoría pseudosespectral aguda para sistemas de descenso de gradiente acoplado con jacobianos triangulares por bloques, relevantes para la optimización bilivel y el entrenamiento adversarial. Establece límites para la amplificación transitoria y caracteriza los umbrales de acoplamiento críticos para la inestabilidad espectral.

28
RESEARCHarXiv CS.LG·8/5/2026

Are Flat Minima an Illusion?

Este artículo desafía la visión convencional de que los mínimos planos conducen inherentemente a una mejor generalización, mostrando que la reparametrización que preserva la función puede alterar drásticamente la nitidez percibida de un mínimo. Introduce la "debilidad" —una medida invariante a la reparametrización basada en lo que hace la red— como el verdadero motor de la generalización, demostrando su optimalidad minimax y correlación con los límites PAC-Bayes.

27
RESEARCHarXiv CS.AI·hace 28d

On Distinguishing Capability Elicitation from Capability Creation in Post-Training: A Free-Energy Perspective

Esta investigación propone distinguir entre la elicitación y la creación de capacidades en el post-entrenamiento de grandes modelos de lenguaje. Argumenta que la elicitación repondera comportamientos existentes dentro del soporte accesible de un modelo, mientras que la creación cambia ese soporte, desarrollando esto a través de una perspectiva de energía libre.

27