RESEARCH29
ZAYA1-8B Technical Report
arXiv CS.AI·9 mai 2026
ZAYA1-8B est un modèle de mélange d'experts (MoE) axé sur le raisonnement avec 700 millions de paramètres actifs, surpassant DeepSeek-R1-0528 sur plusieurs benchmarks de mathématiques et de codage. Entraîné à partir de zéro pour le raisonnement sur une plateforme AMD, il utilise une cascade de RL en quatre étapes pour le post-apprentissage.
Lire l'original ↗