← heapsort-ai

Machine Learning Engineering

1 items

ARTICLEDEV.to AI·5/8/2026

From -9.15pp to +0.61pp: An engineering journey through four DPO iteration failures

Ein Ingenieurteam führte vier DPO-Trainingsiterationen mit Qwen2.5-Coder-7B-Instruct durch, um dessen HumanEval pass@1-Score von 87,20% zu übertreffen. Die ersten drei Versuche scheiterten aufgrund von Pipeline-Fehlern, die von bestehenden Qualitätssicherungen nicht erkannt wurden, wobei die vierte Iteration schließlich eine Verbesserung von +0,61pp erzielte.

27