文本纠错任务在审查、写作任务中至关重要,以前的纠错大多采用小模型进行训练,例如BART、T5、BERT等,但是小模型的泛化性较差,需要在不同领域训练不同的小模型进行纠错,为此我们使用200万数据进行大模型的训练,经过验证我们在
GitHub – masr2000/NaCGEC数据集上,F1值比华为高17个点,遥遥领先,下面从三个方面进行详细的技术说明:数据集(涵盖业界所有的开源数据)、评估结果、使用方法,欢迎star,后续会持续更新纠错模型。