RESEARCH↑ trendingReddit r/MachineLearning·22/04/2026
Training-time intervention yields 63.4% blind-pair human preference at matched val-loss (1.2B params, 320 judgments, p = 1.98 × 10⁻⁵) [R]
Une intervention au moment de l'entraînement pour des modèles de langage de 1,2 milliard de paramètres, utilisant une fonction de gain pondérée par la précision et des gradients ajustés par divergence, a entraîné une préférence humaine significativement plus élevée (63,4 %, p < 0,00002) par rapport à l'entraînement standard. Il est notable que ce changement de préférence s'est produit sans altérer la métrique de perte de validation agrégée, indiquant que les interventions d'entraînement au-delà du RLHF peuvent être efficaces.
47