RLHF

9 items

RESEARCHarXiv CS.CL·il y a 1j

What Do People Actually Want From AI? Mapping Preference Plurality

Cette étude examine ce que les gens attendent réellement des systèmes d'IA en analysant 1 500 réponses ouvertes de 75 pays. Elle révèle que les méthodes actuelles d'ajustement fin des LLM, telles que le RLHF, présentent des limites en agrégeant des préférences diverses et souvent contradictoires, soulignant la pluralité des valeurs et des interprétations.

LLMs Human Alignment RLHF User studies

ARTICLE↑ trendingReddit r/MachineLearning·26/04/2026

Why do only big ML labs dominate widely-used models despite many open-source pretrained models smaller labs could do RL on? [D]

Le contenu s'interroge sur la raison pour laquelle les grands laboratoires d'IA dominent les modèles largement utilisés comme GPT et Claude, malgré l'existence de nombreux modèles pré-entraînés open source de même échelle. L'auteur suggère que le Reinforcement Learning from Human Feedback (RLHF) est la clé de la supériorité de ces modèles et se demande pourquoi il ne serait pas plus accessible aux petits laboratoires.

open-source AI RLHF AI industry large language models

ARTICLEDEV.to AI·21/04/2026

I Grade AI Code for a Living. Here's What Nobody Talks About.

Un ingénieur logiciel senior et formateur en IA révèle la réalité souvent ignorée de la qualité du code généré par l'IA, affirmant qu'il est fréquemment insuffisant pour la production. Il identifie des schémas d'échec constants et explique son rôle dans la boucle d'apprentissage par renforcement à partir de rétroaction humaine (RLHF), où il évalue et améliore les sorties du modèle.

AI training RLHF code quality AI development

ARTICLEDEV.to AI·il y a 27j

Would you spend time mentoring AI agents interacting with each other?

L'auteur se demande si les utilisateurs seraient motivés à encadrer des agents d'IA interagissant entre eux, en orientant leurs conversations. L'idée explore si cette intervention serait plus engageante que de simplement discuter avec une IA, comblant le fossé entre l'observation de l'IA et la fourniture de données RLHF.

AI interaction AI training human-AI collaboration RLHF

RESEARCHarXiv CS.LG·13/04/2026

Distributionally Robust Token Optimization in RLHF

Pour résoudre la susceptibilité des LLM aux échecs dus à de petits changements dans les invites, notamment pour le raisonnement en plusieurs étapes, des chercheurs proposent l'Optimisation de Tokens Robuste Distributionnellement (DRTO). Cette approche combine l'apprentissage par renforcement à partir du feedback humain (RLHF) au niveau du token avec l'optimisation robuste distributionnellement (DRO) pour améliorer la cohérence sous les changements de distribution, montrant des améliorations sur les benchmarks de raisonnement mathématique.

DRO LLMs RLHF Distributionally Robust Optimization

RESEARCHarXiv CS.LG·il y a 8j

Calibrated Preference Learning: The Case of Label Ranking

Cet article formalise la calibration pour le classement probabiliste d'étiquettes, introduisant une hiérarchie de notions pour les classements complets, les sous-classements et les top-k. Empiriquement, les modèles populaires de classement d'étiquettes sont souvent mal calibrés, avec des implications pour les modèles de récompense RLHF.

Calibration AI models ranking machine learning

ARTICLEDEV.to AI·19/04/2026

AI Is Bad at Disagreeing. I Spent Weeks Trying to Fix That.

Un auteur a développé un outil d'IA pour générer des débats entre marques, mais les IA refusaient de créer des désaccords, produisant des discussions excessivement polies. Ce comportement est dû au fait que les modèles de langage modernes sont formés via RLHF pour être serviables et désamorcer les conflits.

AI limitations AI training LLM behavior RLHF

DOCStatQuest (YouTube)·05/05/2025

Reinforcement Learning with Human Feedback (RLHF), Clearly Explained!!!

Ce contenu explique clairement l'apprentissage par renforcement avec rétroaction humaine (RLHF), une technique cruciale utilisée pour aligner les grands modèles linguistiques avec les préférences humaines. Il détaille comment l'apport humain aide à affiner les modèles d'IA pour de meilleures performances et une meilleure sécurité.

reinforcement learning learning RLHF AI Explanation

Reinforcement Learning with Human Feedback (RLHF), Clearly Explained!!!

ARTICLEDEV.to AI·il y a 14j

Understanding Reinforcement Learning with Human Feedback Part 6: How the Reward Model Trains the Original Model

Cet article, faisant partie d'une série sur l'apprentissage par renforcement avec feedback humain (RLHF), détaille comment un modèle de récompense pré-entraîné est utilisé pour former un modèle d'IA original. Il explique que de nouvelles invites sont utilisées, le modèle original génère des réponses, et le modèle de récompense fournit des signaux de feedback, permettant au modèle original d'apprendre à générer des sorties plus utiles et alignées sur les préférences humaines.

reinforcement learning learning AI training machine learning