RESEARCH↑ trending47
Training-time intervention yields 63.4% blind-pair human preference at matched val-loss (1.2B params, 320 judgments, p = 1.98 × 10⁻⁵) [R]
Reddit r/MachineLearning·22 de abril de 2026
Uma intervenção no tempo de treinamento para LMs de 1.2B parâmetros, utilizando uma função de ganho ponderada por precisão e gradientes escalados por divergência, resultou em uma preferência humana significativamente maior (63,4%, p < 0.00002) em comparação com o treinamento padrão. Notavelmente, esta melhora na preferência ocorreu sem alterar a métrica agregada de perda de validação, indicando que intervenções no treinamento além do RLHF podem ser eficazes.
Ler original ↗