RESEARCH27
TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization
arXiv CS.AI·4. Mai 2026
TUR-DPO ist eine neue, topologie- und unsicherheitsbewusste Variante der Direkten Präferenzoptimierung (DPO), die darauf abzielt, große Sprachmodelle (LLMs) besser an menschliche Präferenzen anzupassen. Sie berücksichtigt Begründungstopologien und Unsicherheitssignale, um nicht nur das Gesagte, sondern auch die Art der Antwortableitung zu bewerten.
Original lesen ↗