RESEARCH27

CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards

arXiv CS.CL·2. Juni 2026

Dieses Papier schlägt CSRP vor, ein dreistufiges Framework zur Korrektur chinesischer Grammatikfehler (CGEC) mithilfe großer Sprachmodelle (LLMs). CSRP begegnet den Herausforderungen allgemeiner Modelle und der Metrikoptimierung mit kontinuierlichem Vortraining, Chain-of-Thought SFT und Richtlinienoptimierung mit effizienzbewussten Belohnungen, die unnötige Bearbeitungen bestrafen, und erreicht damit Spitzenleistungen im NACGEC-Benchmark.

reinforcement learning Grammar Correction Natural Language Processing AI research LLM

Original lesen ↗