ARTICLE27
From -9.15pp to +0.61pp: An engineering journey through four DPO iteration failures
DEV.to AI·8. Mai 2026
Ein Ingenieurteam führte vier DPO-Trainingsiterationen mit Qwen2.5-Coder-7B-Instruct durch, um dessen HumanEval pass@1-Score von 87,20% zu übertreffen. Die ersten drei Versuche scheiterten aufgrund von Pipeline-Fehlern, die von bestehenden Qualitätssicherungen nicht erkannt wurden, wobei die vierte Iteration schließlich eine Verbesserung von +0,61pp erzielte.
Original lesen ↗