← heapsort-ai

Hyperparameter Tuning

3 items

RESEARCHarXiv CS.LG·16/4/2026

Generalization Guarantees on Data-Driven Tuning of Gradient Descent with Langevin Updates

Este artículo introduce el algoritmo Langevin Gradient Descent (LGD) para problemas de regresión convexa, demostrando que las configuraciones óptimas de hiperparámetros alcanzan la solución óptima de Bayes. El trabajo también ofrece garantías de generalización para el meta-aprendizaje de hiperparámetros óptimos de LGD, con un límite de pseudo-dimensión de O(dh).

29
RESEARCHarXiv CS.LG·hace 27d

$\xi$-DPO: Direct Preference Optimization via Ratio Reward Margin

Este artículo propone -DPO, una optimización de preferencia directa a través del margen de recompensa de razón, para abordar el desafío del ajuste de hiperparámetros en SimPO. La investigación analiza SimPO y reformula el objetivo de preferencia para mejorar la interpretabilidad en conjuntos de datos con diferentes estructuras de brecha de recompensa.

29