DPO

3 items

ARTICLEHugging Face Blog·vor 6T

Direct Preference Optimization Beyond Chatbots

Dieser Artikel untersucht die Direct Preference Optimization (DPO), eine Methode zur Anpassung von KI-Modellen an menschliche Präferenzen, und erforscht ihre potenziellen Anwendungen jenseits traditioneller Chatbots. Er befasst sich damit, wie DPO in verschiedenen KI-Bereichen eingesetzt werden kann.

language models reinforcement learning learning DPO

RESEARCHarXiv CS.AI·5/4/2026

TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization

TUR-DPO ist eine neue, topologie- und unsicherheitsbewusste Variante der Direkten Präferenzoptimierung (DPO), die darauf abzielt, große Sprachmodelle (LLMs) besser an menschliche Präferenzen anzupassen. Sie berücksichtigt Begründungstopologien und Unsicherheitssignale, um nicht nur das Gesagte, sondern auch die Art der Antwortableitung zu bewerten.

reinforcement learning DPO AI alignment machine learning

ARTICLEDEV.to AI·5/8/2026

From -9.15pp to +0.61pp: An engineering journey through four DPO iteration failures

Ein Ingenieurteam führte vier DPO-Trainingsiterationen mit Qwen2.5-Coder-7B-Instruct durch, um dessen HumanEval pass@1-Score von 87,20% zu übertreffen. Die ersten drei Versuche scheiterten aufgrund von Pipeline-Fehlern, die von bestehenden Qualitätssicherungen nicht erkannt wurden, wobei die vierte Iteration schließlich eine Verbesserung von +0,61pp erzielte.

model performance DPO AI training Debugging