heapsort
RESEARCH29

ZAYA1-8B Technical Report

arXiv CS.AI·9 de mayo de 2026

ZAYA1-8B es un modelo de mezcla de expertos (MoE) enfocado en el razonamiento con 700M de parámetros activos, superando a DeepSeek-R1-0528 en benchmarks de matemáticas y codificación. Fue entrenado desde cero para el razonamiento en una plataforma AMD y utiliza una cascada de RL de cuatro etapas para el post-entrenamiento.

Leer original