heapsort
RESEARCH↑ trending47

Training-time intervention yields 63.4% blind-pair human preference at matched val-loss (1.2B params, 320 judgments, p = 1.98 × 10⁻⁵) [R]

Reddit r/MachineLearning·22 de abril de 2026

Una intervención durante el entrenamiento para LMs de 1.2B parámetros, utilizando una función de ganancia ponderada por precisión y gradientes escalados por divergencia, resultó en una preferencia humana significativamente mayor (63.4%, p < 0.00002) en comparación con el entrenamiento estándar. Es destacable que esta mejora en la preferencia se produjo sin alterar la métrica agregada de pérdida de validación, lo que indica que las intervenciones de entrenamiento más allá del RLHF pueden ser efectivas.

Leer original