RESEARCH↑ trending47

Training-time intervention yields 63.4% blind-pair human preference at matched val-loss (1.2B params, 320 judgments, p = 1.98 × 10⁻⁵) [R]

Reddit r/MachineLearning·22 de abril de 2026

Uma intervenção no tempo de treinamento para LMs de 1.2B parâmetros, utilizando uma função de ganho ponderada por precisão e gradientes escalados por divergência, resultou em uma preferência humana significativamente maior (63,4%, p < 0.00002) em comparação com o treinamento padrão. Notavelmente, esta melhora na preferência ocorreu sem alterar a métrica agregada de perda de validação, indicando que intervenções no treinamento além do RLHF podem ser eficazes.

LLMs machine learning Human Preference training methods

Ler original ↗