← heapsort-ai

DPO

3 items

RESEARCHarXiv CS.AI·5/4/2026

TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization

TUR-DPO ist eine neue, topologie- und unsicherheitsbewusste Variante der Direkten Präferenzoptimierung (DPO), die darauf abzielt, große Sprachmodelle (LLMs) besser an menschliche Präferenzen anzupassen. Sie berücksichtigt Begründungstopologien und Unsicherheitssignale, um nicht nur das Gesagte, sondern auch die Art der Antwortableitung zu bewerten.

27
ARTICLEDEV.to AI·5/8/2026

From -9.15pp to +0.61pp: An engineering journey through four DPO iteration failures

Ein Ingenieurteam führte vier DPO-Trainingsiterationen mit Qwen2.5-Coder-7B-Instruct durch, um dessen HumanEval pass@1-Score von 87,20% zu übertreffen. Die ersten drei Versuche scheiterten aufgrund von Pipeline-Fehlern, die von bestehenden Qualitätssicherungen nicht erkannt wurden, wobei die vierte Iteration schließlich eine Verbesserung von +0,61pp erzielte.

27