RESEARCH27
Soro: A Lightweight Foundation Model and Chatbot for Tajik
arXiv CS.AI·28 de mayo de 2026
Soro es una familia de grandes modelos de lenguaje conversacionales (LLMs) especializados en tayiko, diseñados para su implementación en Tayikistán bajo estrictas limitaciones de cómputo. Desarrollado a partir de checkpoints de Gemma 3 y preentrenado con un corpus tayiko de 1.900 millones de tokens, supera a las bases de referencia en nuevos benchmarks específicos del tayiko.
Leer original ↗