← heapsort-ai

Grammar Correction

1 items

RESEARCHarXiv CS.CL·hace 8d

CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards

Este artículo propone CSRP, un marco de tres etapas para la corrección de errores gramaticales chinos (CGEC) utilizando Grandes Modelos de Lenguaje (LLMs). CSRP aborda los desafíos de los modelos de propósito general y la optimización de métricas con preentrenamiento continuo, SFT Chain-of-Thought y optimización de políticas con recompensas conscientes de la eficiencia que penalizan ediciones innecesarias, logrando un rendimiento de vanguardia en el benchmark NACGEC.

27