← heapsort-ai

Hyperparameter Tuning

3 items

RESEARCHarXiv CS.LG·16/04/2026

Generalization Guarantees on Data-Driven Tuning of Gradient Descent with Langevin Updates

Cet article présente l'algorithme Langevin Gradient Descent (LGD) pour les problèmes de régression convexe, prouvant que les configurations optimales d'hyperparamètres atteignent la solution optimale de Bayes. Le travail offre également des garanties de généralisation pour le méta-apprentissage des hyperparamètres optimaux du LGD, avec une borne de pseudo-dimension de O(dh).

29
RESEARCHarXiv CS.LG·il y a 27j

$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin

Cet article présente -DPO, une optimisation de préférence directe via une marge de récompense par ratio, afin de résoudre le défi de l'ajustement des hyperparamètres dans SimPO. La recherche analyse SimPO et reformule l'objectif de préférence pour améliorer l'interprétabilité sur des ensembles de données avec différentes structures d'écart de récompense.

29
RESEARCHarXiv CS.LG·il y a 5j

Unlocking Feature Learning in Gated Delta Networks at Scale

Cet article dérive des règles de mise à l'échelle pour les réseaux Delta à portes (Gated Delta Networks) afin d'optimiser l'entraînement des grands modèles linguistiques (Large Language Models). Les expériences confirment que les configurations proposées permettent un transfert stable du taux d'apprentissage sur différentes largeurs de modèle.

28