DPO

3 items

ARTICLEHugging Face Blog·6d atrás

Direct Preference Optimization Beyond Chatbots

Este artigo explora a Otimização de Preferência Direta (DPO), um método para alinhar modelos de IA com preferências humanas, examinando suas potenciais aplicações além dos chatbots tradicionais. Ele aborda como o DPO pode ser utilizado em diversos domínios da IA.

language models reinforcement learning learning DPO

RESEARCHarXiv CS.AI·04/05/2026

TUR-DPO: Topology- and Uncertainty-Aware Direct Preference Optimization

TUR-DPO é uma nova variante de Otimização de Preferência Direta (DPO) que melhora o alinhamento de modelos de linguagem grandes (LLMs) com preferências humanas. Ele incorpora topologias de raciocínio e sinais de incerteza, premiando como as respostas são derivadas e não apenas o que elas dizem.

reinforcement learning DPO AI alignment machine learning

ARTICLEDEV.to AI·08/05/2026

From -9.15pp to +0.61pp: An engineering journey through four DPO iteration failures

Uma equipe de engenharia realizou quatro iterações de treinamento DPO no Qwen2.5-Coder-7B-Instruct, buscando superar sua pontuação de 87,20% no HumanEval pass@1. As três primeiras tentativas falharam devido a bugs na pipeline de geração de amostras, que não foram detectados pelos controles de qualidade existentes, com a quarta iteração resultando em uma melhoria de +0,61pp.

model performance DPO AI training Debugging