heapsort
RESEARCH↑ trending47

Training-time intervention yields 63.4% blind-pair human preference at matched val-loss (1.2B params, 320 judgments, p = 1.98 × 10⁻⁵) [R]

Reddit r/MachineLearning·22. April 2026

Eine Trainingszeit-Intervention für 1,2B-Parameter-Sprachmodelle, die eine präzisionsgewichtete Gain-Funktion und divergenzskalierte Gradienten verwendet, führte zu einer signifikant höheren menschlichen Präferenz (63,4%, p < 0.00002) im Vergleich zum Standardtraining. Bemerkenswerterweise erfolgte diese Präferenzverschiebung ohne Änderung der aggregierten Validierungsverlustmetrik, was darauf hindeutet, dass Trainingsinterventionen jenseits von RLHF wirksam sein können.

Original lesen