← heapsort-ai

training methods

1 items

RESEARCH↑ trendingReddit r/MachineLearning·22/04/2026

Training-time intervention yields 63.4% blind-pair human preference at matched val-loss (1.2B params, 320 judgments, p = 1.98 × 10⁻⁵) [R]

Uma intervenção no tempo de treinamento para LMs de 1.2B parâmetros, utilizando uma função de ganho ponderada por precisão e gradientes escalados por divergência, resultou em uma preferência humana significativamente maior (63,4%, p < 0.00002) em comparação com o treinamento padrão. Notavelmente, esta melhora na preferência ocorreu sem alterar a métrica agregada de perda de validação, indicando que intervenções no treinamento além do RLHF podem ser eficazes.

47