RESEARCH↑ trending47

Training-time intervention yields 63.4% blind-pair human preference at matched val-loss (1.2B params, 320 judgments, p = 1.98 × 10⁻⁵) [R]

Reddit r/MachineLearning·22. April 2026

Eine Trainingszeit-Intervention für 1,2B-Parameter-Sprachmodelle, die eine präzisionsgewichtete Gain-Funktion und divergenzskalierte Gradienten verwendet, führte zu einer signifikant höheren menschlichen Präferenz (63,4%, p < 0.00002) im Vergleich zum Standardtraining. Bemerkenswerterweise erfolgte diese Präferenzverschiebung ohne Änderung der aggregierten Validierungsverlustmetrik, was darauf hindeutet, dass Trainingsinterventionen jenseits von RLHF wirksam sein können.

LLMs machine learning Human Preference training methods

Original lesen ↗