← heapsort-ai

Cross-script

1 items

RESEARCHarXiv CS.CL·il y a 29j

TajPersLexon: A Tajik-Persian Lexical Resource and Hybrid Model for Cross-Script Low-Resource NLP

Cette recherche présente TajPersLexon, une ressource lexicale parallèle tadjik-persan de 40 112 paires de mots pour le PNL inter-scripts dans des environnements à faibles ressources. Elle évalue des modèles hybrides, neuronaux et de récupération, démontrant une haute précision pour les bases neuronales et de récupération (98-99%) et un compromis favorable précision-efficacité pour le modèle hybride (96,4%) dans la post-correction OCR.

27