RESEARCHarXiv CS.AI·12d atrás
Soro: A Lightweight Foundation Model and Chatbot for Tajik
Soro é uma família de modelos de linguagem grandes conversacionais (LLMs) especializados em Tadjique, projetados para implantação no Tajiquistão sob restrições de computação. Desenvolvido a partir de checkpoints Gemma 3 e treinado com um corpus de 1,9 bilhões de tokens em Tadjique, supera os modelos de base em novos benchmarks para a língua.
27