heapsort
RESEARCH29

ZAYA1-8B Technical Report

arXiv CS.AI·9. Mai 2026

ZAYA1-8B ist ein auf logisches Denken fokussiertes Mixture-of-Experts (MoE)-Modell mit 700 Millionen aktiven Parametern, das DeepSeek-R1-0528 bei Mathematik- und Codierungs-Benchmarks übertrifft. Es wurde von Grund auf für das Denken auf einer AMD-Plattform trainiert und nutzt eine vierstufige RL-Kaskade für das Post-Training.

Original lesen