ARTICLEDEV.to AI·08/05/2026
From -9.15pp to +0.61pp: An engineering journey through four DPO iteration failures
Une équipe d'ingénieurs a mené quatre itérations d'entraînement DPO sur Qwen2.5-Coder-7B-Instruct, cherchant à dépasser son score de 87,20% au HumanEval pass@1. Les trois premières tentatives ont échoué en raison de bugs dans le pipeline de génération d'échantillons non détectés par les contrôles de qualité existants, la quatrième itération aboutissant à une amélioration de +0,61pp.
27