← heapsort-ai

RLHF

9 items

RESEARCHarXiv CS.CL·vor 1T

What Do People Actually Want From AI? Mapping Preference Plurality

Diese Studie untersucht, was Menschen tatsächlich von KI-Systemen erwarten, indem sie 1.500 offene Antworten aus 75 Ländern analysiert. Sie zeigt, dass aktuelle LLM-Feinabstimmungsmethoden wie RLHF Einschränkungen bei der Aggregation unterschiedlicher und oft widersprüchlicher Präferenzen aufweisen, was die Pluralität von Werten und Interpretationen verdeutlicht.

60
ARTICLE↑ trendingReddit r/MachineLearning·4/26/2026

Why do only big ML labs dominate widely-used models despite many open-source pretrained models smaller labs could do RL on? [D]

Der Inhalt hinterfragt, warum große KI-Labore weit verbreitete Modelle wie GPT und Claude dominieren, obwohl viele Open-Source-Modelle ähnlichen Umfangs vorab trainiert wurden. Der Autor vermutet, dass Reinforcement Learning from Human Feedback (RLHF) der Schlüssel zur Überlegenheit dieser Modelle ist und fragt, warum dies für kleinere Labore nicht zugänglicher sein sollte.

42
ARTICLEDEV.to AI·4/21/2026

I Grade AI Code for a Living. Here's What Nobody Talks About.

Ein leitender Softwareingenieur und KI-Trainer deckt die oft übersehene Realität der Qualität von KI-generiertem Code auf und stellt fest, dass dieser häufig nicht den Produktionsstandards entspricht. Er identifiziert konsistente Fehlermuster und erläutert seine Rolle im Reinforcement Learning from Human Feedback (RLHF)-Zyklus, wo er Modellausgaben bewertet und verbessert.

27
RESEARCHarXiv CS.LG·4/13/2026

Distributionally Robust Token Optimization in RLHF

Um die Anfälligkeit von LLMs für Fehler durch kleine Prompt-Änderungen, insbesondere bei mehrstufigem Denken, zu beheben, schlagen Forscher Distributionally Robust Token Optimization (DRTO) vor. Dieser Ansatz kombiniert tokenbasiertes Reinforcement Learning from Human Feedback (RLHF) mit Distributionally Robust Optimization (DRO), um die Konsistenz unter Verteilungsverschiebungen zu erhöhen und zeigt Verbesserungen bei mathematischen Reasoning-Benchmarks.

27
ARTICLEDEV.to AI·4/19/2026

AI Is Bad at Disagreeing. I Spent Weeks Trying to Fix That.

Ein Autor entwickelte ein KI-Tool zur Generierung von Markendebatten, stellte jedoch fest, dass die KIs sich konsequent weigerten, zu widersprechen, und stattdessen höfliche, einvernehmliche Diskussionen führten. Dieses Verhalten wird darauf zurückgeführt, dass moderne Sprachmodelle stark durch RLHF trainiert werden, um hilfreich zu sein und Konflikte zu entschärfen, was ihre Fähigkeit als Kontrahenten zu agieren, behindert.

27
ARTICLEDEV.to AI·vor 14T

Understanding Reinforcement Learning with Human Feedback Part 6: How the Reward Model Trains the Original Model

Dieser Artikel, Teil einer Reihe über Reinforcement Learning with Human Feedback (RLHF), beschreibt, wie ein vorab trainiertes Belohnungsmodell zum Trainieren eines ursprünglichen KI-Modells eingesetzt wird. Es wird erklärt, dass neue Prompts verwendet werden, das ursprüngliche Modell Antworten generiert und das Belohnungsmodell Feedback-Signale liefert, wodurch das ursprüngliche Modell lernt, hilfreichere und menschengerechtere Ausgaben zu erzeugen.

24