Grammar Correction — artigos, notícias e pesquisas de IA

RESEARCHarXiv CS.CL·8d atrás

CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards

Este artigo propõe CSRP, um framework de três estágios para correção de erros gramaticais em chinês (CGEC) usando Modelos de Linguagem Grandes (LLMs). O CSRP aborda os desafios de modelos genéricos e otimização de métricas com pré-treinamento contínuo, SFT Chain-of-Thought e otimização de política com recompensas que penalizam edições desnecessárias, alcançando desempenho superior no benchmark NACGEC.

reinforcement learning Grammar Correction Natural Language Processing AI Research