heapsort
ARTICLE27

From -9.15pp to +0.61pp: An engineering journey through four DPO iteration failures

DEV.to AI·8 mai 2026

Une équipe d'ingénieurs a mené quatre itérations d'entraînement DPO sur Qwen2.5-Coder-7B-Instruct, cherchant à dépasser son score de 87,20% au HumanEval pass@1. Les trois premières tentatives ont échoué en raison de bugs dans le pipeline de génération d'échantillons non détectés par les contrôles de qualité existants, la quatrième itération aboutissant à une amélioration de +0,61pp.

Lire l'original