RLHF

9 items

RESEARCHarXiv CS.CL·vor 1T

What Do People Actually Want From AI? Mapping Preference Plurality

Diese Studie untersucht, was Menschen tatsächlich von KI-Systemen erwarten, indem sie 1.500 offene Antworten aus 75 Ländern analysiert. Sie zeigt, dass aktuelle LLM-Feinabstimmungsmethoden wie RLHF Einschränkungen bei der Aggregation unterschiedlicher und oft widersprüchlicher Präferenzen aufweisen, was die Pluralität von Werten und Interpretationen verdeutlicht.

LLMs Human Alignment RLHF User studies

ARTICLE↑ trendingReddit r/MachineLearning·4/26/2026

Why do only big ML labs dominate widely-used models despite many open-source pretrained models smaller labs could do RL on? [D]

Der Inhalt hinterfragt, warum große KI-Labore weit verbreitete Modelle wie GPT und Claude dominieren, obwohl viele Open-Source-Modelle ähnlichen Umfangs vorab trainiert wurden. Der Autor vermutet, dass Reinforcement Learning from Human Feedback (RLHF) der Schlüssel zur Überlegenheit dieser Modelle ist und fragt, warum dies für kleinere Labore nicht zugänglicher sein sollte.

open-source AI RLHF AI industry large language models

ARTICLEDEV.to AI·4/21/2026

I Grade AI Code for a Living. Here's What Nobody Talks About.

Ein leitender Softwareingenieur und KI-Trainer deckt die oft übersehene Realität der Qualität von KI-generiertem Code auf und stellt fest, dass dieser häufig nicht den Produktionsstandards entspricht. Er identifiziert konsistente Fehlermuster und erläutert seine Rolle im Reinforcement Learning from Human Feedback (RLHF)-Zyklus, wo er Modellausgaben bewertet und verbessert.

AI training RLHF code quality AI development

ARTICLEDEV.to AI·vor 27T

Would you spend time mentoring AI agents interacting with each other?

Der Autor fragt, ob Benutzer motiviert wären, miteinander interagierende KI-Agenten zu betreuen und deren Gespräche zu lenken. Die Idee untersucht, ob diese Intervention ansprechender wäre als das direkte Chatten mit einer KI und die Lücke zwischen dem Beobachten von KI und der Bereitstellung von RLHF-Daten schließen könnte.

AI interaction AI training human-AI collaboration RLHF

RESEARCHarXiv CS.LG·4/13/2026

Distributionally Robust Token Optimization in RLHF

Um die Anfälligkeit von LLMs für Fehler durch kleine Prompt-Änderungen, insbesondere bei mehrstufigem Denken, zu beheben, schlagen Forscher Distributionally Robust Token Optimization (DRTO) vor. Dieser Ansatz kombiniert tokenbasiertes Reinforcement Learning from Human Feedback (RLHF) mit Distributionally Robust Optimization (DRO), um die Konsistenz unter Verteilungsverschiebungen zu erhöhen und zeigt Verbesserungen bei mathematischen Reasoning-Benchmarks.

DRO LLMs RLHF Distributionally Robust Optimization

RESEARCHarXiv CS.LG·vor 8T

Calibrated Preference Learning: The Case of Label Ranking

Dieses Papier formalisiert die Kalibrierung für probabilistisches Label-Ranking und führt eine Hierarchie von Begriffen für vollständiges, Sub-Ranking und Top-k-Ranking ein. Empirisch sind gängige Label-Ranking-Modelle oft schlecht kalibriert, mit Auswirkungen auf RLHF-Belohnungsmodelle.

Calibration AI models ranking machine learning

ARTICLEDEV.to AI·4/19/2026

AI Is Bad at Disagreeing. I Spent Weeks Trying to Fix That.

Ein Autor entwickelte ein KI-Tool zur Generierung von Markendebatten, stellte jedoch fest, dass die KIs sich konsequent weigerten, zu widersprechen, und stattdessen höfliche, einvernehmliche Diskussionen führten. Dieses Verhalten wird darauf zurückgeführt, dass moderne Sprachmodelle stark durch RLHF trainiert werden, um hilfreich zu sein und Konflikte zu entschärfen, was ihre Fähigkeit als Kontrahenten zu agieren, behindert.

AI limitations AI training LLM behavior RLHF

DOCStatQuest (YouTube)·5/5/2025

Reinforcement Learning with Human Feedback (RLHF), Clearly Explained!!!

Dieser Inhalt erklärt klar das Reinforcement Learning mit menschlichem Feedback (RLHF), eine entscheidende Technik, die verwendet wird, um große Sprachmodelle an menschliche Präferenzen anzupassen. Er beschreibt, wie menschlicher Input hilft, KI-Modelle für bessere Leistung und Sicherheit zu optimieren.

reinforcement learning learning RLHF AI Explanation

Reinforcement Learning with Human Feedback (RLHF), Clearly Explained!!!

ARTICLEDEV.to AI·vor 14T

Understanding Reinforcement Learning with Human Feedback Part 6: How the Reward Model Trains the Original Model

Dieser Artikel, Teil einer Reihe über Reinforcement Learning with Human Feedback (RLHF), beschreibt, wie ein vorab trainiertes Belohnungsmodell zum Trainieren eines ursprünglichen KI-Modells eingesetzt wird. Es wird erklärt, dass neue Prompts verwendet werden, das ursprüngliche Modell Antworten generiert und das Belohnungsmodell Feedback-Signale liefert, wodurch das ursprüngliche Modell lernt, hilfreichere und menschengerechtere Ausgaben zu erzeugen.

reinforcement learning learning AI training machine learning