← heapsort-ai

Machine Learning Engineering

1 items

ARTICLEDEV.to AI·08/05/2026

From -9.15pp to +0.61pp: An engineering journey through four DPO iteration failures

Uma equipe de engenharia realizou quatro iterações de treinamento DPO no Qwen2.5-Coder-7B-Instruct, buscando superar sua pontuação de 87,20% no HumanEval pass@1. As três primeiras tentativas falharam devido a bugs na pipeline de geração de amostras, que não foram detectados pelos controles de qualidade existentes, com a quarta iteração resultando em uma melhoria de +0,61pp.

27