RESEARCH27
Soro: A Lightweight Foundation Model and Chatbot for Tajik
arXiv CS.AI·28 mai 2026
Soro est une famille de grands modèles de langage conversationnels (LLMs) spécialisés en tadjik, conçus pour un déploiement au Tadjikistan avec des contraintes de calcul. Développé à partir de checkpoints Gemma 3 et pré-entraîné sur un corpus tadjik de 1,9 milliard de tokens, il surpasse significativement les modèles de base sur de nouveaux benchmarks tadjiks.
Lire l'original ↗