RESEARCH27
Soro: A Lightweight Foundation Model and Chatbot for Tajik
arXiv CS.AI·28 de maio de 2026
Soro é uma família de modelos de linguagem grandes conversacionais (LLMs) especializados em Tadjique, projetados para implantação no Tajiquistão sob restrições de computação. Desenvolvido a partir de checkpoints Gemma 3 e treinado com um corpus de 1,9 bilhões de tokens em Tadjique, supera os modelos de base em novos benchmarks para a língua.
Ler original ↗