RESEARCH27
Soro: A Lightweight Foundation Model and Chatbot for Tajik
arXiv CS.AI·28. Mai 2026
Soro ist eine Familie von auf Tadschikisch spezialisierten konversationellen großen Sprachmodellen (LLMs), die für den Einsatz in Tadschikistan unter Rechen- und Konnektivitätsbeschränkungen entwickelt wurden. Basierend auf Gemma 3 Checkpoints und vortrainiert mit einem 1,9 Milliarden Token umfassenden tadschikischen Korpus, übertrifft es Baselines auf neuen tadschikischen Benchmarks deutlich.
Original lesen ↗