RESEARCH27

TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization

arXiv CS.AI·4. Mai 2026

TUR-DPO ist eine neue, topologie- und unsicherheitsbewusste Variante der Direkten Präferenzoptimierung (DPO), die darauf abzielt, große Sprachmodelle (LLMs) besser an menschliche Präferenzen anzupassen. Sie berücksichtigt Begründungstopologien und Unsicherheitssignale, um nicht nur das Gesagte, sondern auch die Art der Antwortableitung zu bewerten.

reinforcement learning DPO AI alignment machine learning LLM

Original lesen ↗