heapsort
RESEARCH29

ZAYA1-8B Technical Report

arXiv CS.AI·9 de maio de 2026

ZAYA1-8B é um modelo de mistura de especialistas (MoE) focado em raciocínio, com 700M de parâmetros ativos, que supera o DeepSeek-R1-0528 em benchmarks de matemática e codificação. Foi treinado do zero para raciocínio em uma plataforma AMD e utiliza uma cascata de RL de quatro estágios.

Ler original