RESEARCHarXiv CS.CL·11/05/2026
TajPersLexon: A Tajik-Persian Lexical Resource and Hybrid Model for Cross-Script Low-Resource NLP
Esta pesquisa apresenta TajPersLexon, um recurso lexical paralelo Tajique-Persa com 40.112 pares de palavras para PNL inter-escrita em contextos de poucos recursos. Avalia modelos híbridos, neurais e de recuperação, mostrando alta precisão para as linhas de base neurais e de recuperação (98-99%) e um equilíbrio favorável entre precisão e eficiência para o modelo híbrido (96,4%) na pós-correção de OCR.
27