heapsort
RESEARCH27

TajPersLexon: A Tajik-Persian Lexical Resource and Hybrid Model for Cross-Script Low-Resource NLP

arXiv CS.CL·11 mai 2026

Cette recherche présente TajPersLexon, une ressource lexicale parallèle tadjik-persan de 40 112 paires de mots pour le PNL inter-scripts dans des environnements à faibles ressources. Elle évalue des modèles hybrides, neuronaux et de récupération, démontrant une haute précision pour les bases neuronales et de récupération (98-99%) et un compromis favorable précision-efficacité pour le modèle hybride (96,4%) dans la post-correction OCR.

Lire l'original