ARTICLE27
From -9.15pp to +0.61pp: An engineering journey through four DPO iteration failures
DEV.to AI·8 mai 2026
Une équipe d'ingénieurs a mené quatre itérations d'entraînement DPO sur Qwen2.5-Coder-7B-Instruct, cherchant à dépasser son score de 87,20% au HumanEval pass@1. Les trois premières tentatives ont échoué en raison de bugs dans le pipeline de génération d'échantillons non détectés par les contrôles de qualité existants, la quatrième itération aboutissant à une amélioration de +0,61pp.
Lire l'original ↗