RESEARCHarXiv CS.AI·hace 12d
Soro: A Lightweight Foundation Model and Chatbot for Tajik
Soro es una familia de grandes modelos de lenguaje conversacionales (LLMs) especializados en tayiko, diseñados para su implementación en Tayikistán bajo estrictas limitaciones de cómputo. Desarrollado a partir de checkpoints de Gemma 3 y preentrenado con un corpus tayiko de 1.900 millones de tokens, supera a las bases de referencia en nuevos benchmarks específicos del tayiko.
27