← heapsort-ai

RLHF

9 items

RESEARCHarXiv CS.CL·il y a 1j

What Do People Actually Want From AI? Mapping Preference Plurality

Cette étude examine ce que les gens attendent réellement des systèmes d'IA en analysant 1 500 réponses ouvertes de 75 pays. Elle révèle que les méthodes actuelles d'ajustement fin des LLM, telles que le RLHF, présentent des limites en agrégeant des préférences diverses et souvent contradictoires, soulignant la pluralité des valeurs et des interprétations.

60
ARTICLE↑ trendingReddit r/MachineLearning·26/04/2026

Why do only big ML labs dominate widely-used models despite many open-source pretrained models smaller labs could do RL on? [D]

Le contenu s'interroge sur la raison pour laquelle les grands laboratoires d'IA dominent les modèles largement utilisés comme GPT et Claude, malgré l'existence de nombreux modèles pré-entraînés open source de même échelle. L'auteur suggère que le Reinforcement Learning from Human Feedback (RLHF) est la clé de la supériorité de ces modèles et se demande pourquoi il ne serait pas plus accessible aux petits laboratoires.

42
ARTICLEDEV.to AI·21/04/2026

I Grade AI Code for a Living. Here's What Nobody Talks About.

Un ingénieur logiciel senior et formateur en IA révèle la réalité souvent ignorée de la qualité du code généré par l'IA, affirmant qu'il est fréquemment insuffisant pour la production. Il identifie des schémas d'échec constants et explique son rôle dans la boucle d'apprentissage par renforcement à partir de rétroaction humaine (RLHF), où il évalue et améliore les sorties du modèle.

27
RESEARCHarXiv CS.LG·13/04/2026

Distributionally Robust Token Optimization in RLHF

Pour résoudre la susceptibilité des LLM aux échecs dus à de petits changements dans les invites, notamment pour le raisonnement en plusieurs étapes, des chercheurs proposent l'Optimisation de Tokens Robuste Distributionnellement (DRTO). Cette approche combine l'apprentissage par renforcement à partir du feedback humain (RLHF) au niveau du token avec l'optimisation robuste distributionnellement (DRO) pour améliorer la cohérence sous les changements de distribution, montrant des améliorations sur les benchmarks de raisonnement mathématique.

27
ARTICLEDEV.to AI·il y a 14j

Understanding Reinforcement Learning with Human Feedback Part 6: How the Reward Model Trains the Original Model

Cet article, faisant partie d'une série sur l'apprentissage par renforcement avec feedback humain (RLHF), détaille comment un modèle de récompense pré-entraîné est utilisé pour former un modèle d'IA original. Il explique que de nouvelles invites sont utilisées, le modèle original génère des réponses, et le modèle de récompense fournit des signaux de feedback, permettant au modèle original d'apprendre à générer des sorties plus utiles et alignées sur les préférences humaines.

24