heapsort
RESEARCH27

Distributionally Robust Token Optimization in RLHF

arXiv CS.LG·13. April 2026

Um die Anfälligkeit von LLMs für Fehler durch kleine Prompt-Änderungen, insbesondere bei mehrstufigem Denken, zu beheben, schlagen Forscher Distributionally Robust Token Optimization (DRTO) vor. Dieser Ansatz kombiniert tokenbasiertes Reinforcement Learning from Human Feedback (RLHF) mit Distributionally Robust Optimization (DRO), um die Konsistenz unter Verteilungsverschiebungen zu erhöhen und zeigt Verbesserungen bei mathematischen Reasoning-Benchmarks.

Original lesen