← heapsort-ai

Hyperparameter Tuning

3 items

RESEARCHarXiv CS.LG·4/16/2026

Generalization Guarantees on Data-Driven Tuning of Gradient Descent with Langevin Updates

Dieses Papier stellt den Langevin Gradient Descent (LGD) Algorithmus für konvexe Regressionsprobleme vor und beweist, dass optimale Hyperparameterkonfigurationen die Bayes-optimale Lösung erreichen. Die Arbeit liefert auch Generalisierungsgarantien für das Meta-Lernen der optimalen LGD-Hyperparameter mit einer Pseudodimensionsgrenze von O(dh).

29
RESEARCHarXiv CS.LG·vor 27T

$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin

Dieses Papier stellt -DPO vor, eine direkte Präferenzoptimierung mittels Verhältnis-Belohnungsmarge, um die Herausforderung der Hyperparameter-Abstimmung in SimPO anzugehen. Die Forschung analysiert SimPO und reformuliert das Präferenzziel, um die Interpretierbarkeit über Datensätze mit unterschiedlichen Belohnungslückenstrukturen zu verbessern.

29