RESEARCH29
ZAYA1-8B Technical Report
arXiv CS.AI·9. Mai 2026
ZAYA1-8B ist ein auf logisches Denken fokussiertes Mixture-of-Experts (MoE)-Modell mit 700 Millionen aktiven Parametern, das DeepSeek-R1-0528 bei Mathematik- und Codierungs-Benchmarks übertrifft. Es wurde von Grund auf für das Denken auf einer AMD-Plattform trainiert und nutzt eine vierstufige RL-Kaskade für das Post-Training.
Original lesen ↗