heapsort
RESEARCH27

Soro: A Lightweight Foundation Model and Chatbot for Tajik

arXiv CS.AI·28 mai 2026

Soro est une famille de grands modèles de langage conversationnels (LLMs) spécialisés en tadjik, conçus pour un déploiement au Tadjikistan avec des contraintes de calcul. Développé à partir de checkpoints Gemma 3 et pré-entraîné sur un corpus tadjik de 1,9 milliard de tokens, il surpasse significativement les modèles de base sur de nouveaux benchmarks tadjiks.

Lire l'original