Human Preference

2 items

RESEARCH↑ trendingReddit r/MachineLearning·4/22/2026

Training-time intervention yields 63.4% blind-pair human preference at matched val-loss (1.2B params, 320 judgments, p = 1.98 × 10⁻⁵) [R]

Eine Trainingszeit-Intervention für 1,2B-Parameter-Sprachmodelle, die eine präzisionsgewichtete Gain-Funktion und divergenzskalierte Gradienten verwendet, führte zu einer signifikant höheren menschlichen Präferenz (63,4%, p < 0.00002) im Vergleich zum Standardtraining. Bemerkenswerterweise erfolgte diese Präferenzverschiebung ohne Änderung der aggregierten Validierungsverlustmetrik, was darauf hindeutet, dass Trainingsinterventionen jenseits von RLHF wirksam sein können.

LLMs machine learning Human Preference training methods

RESEARCHarXiv CS.CL·5/4/2026

Putting HUMANS first: Efficient LAM Evaluation with Human Preference Alignment

Diese Forschung untersucht effiziente Methoden zur Bewertung großer Audiomodelle (LAMs) mithilfe minimaler Daten-Teilmengen, die eine hohe Korrelation mit vollständigen Benchmarks erreichen. Sie zeigt auch, dass Regressionsmodelle, die auf diesen Teilmengen trainiert wurden, menschliche Präferenzen für die Benutzerzufriedenheit besser vorhersagen können als vollständige Benchmarks.

Model Evaluation efficiency Benchmarks Large Audio Models