← heapsort-ai

Grammar Correction

1 items

RESEARCHarXiv CS.CL·il y a 7j

CSRP: Chain-of-Thought Reasoning for Chinese Text Correction via Reinforcement Learning with Efficiency-Aware Rewards

Cet article propose CSRP, un cadre en trois étapes pour la correction des erreurs grammaticales chinoises (CGEC) utilisant des grands modèles de langage (LLM). CSRP aborde les défis des modèles génériques et l'optimisation des métriques avec un pré-entraînement continu, un SFT Chain-of-Thought et une optimisation de politique avec des récompenses sensibles à l'efficacité qui pénalisent les modifications inutiles, atteignant des performances de pointe sur le benchmark NACGEC.

27