RESEARCHarXiv CS.AI·vor 12T
Soro: A Lightweight Foundation Model and Chatbot for Tajik
Soro ist eine Familie von auf Tadschikisch spezialisierten konversationellen großen Sprachmodellen (LLMs), die für den Einsatz in Tadschikistan unter Rechen- und Konnektivitätsbeschränkungen entwickelt wurden. Basierend auf Gemma 3 Checkpoints und vortrainiert mit einem 1,9 Milliarden Token umfassenden tadschikischen Korpus, übertrifft es Baselines auf neuen tadschikischen Benchmarks deutlich.
27