HillZhang1999 / NaSGEC

Code & Data for our Paper "NaSGEC: Multi-Domain Chinese Grammatical Error Correction for Native Speaker Texts" (ACL 2023 Findings)
https://arxiv.org/abs/2305.16023
73 stars 6 forks source link

About full stop & UNK #7

Closed essencejay closed 12 months ago

essencejay commented 1 year ago

两个有意思的现场及个人推测:

1: 分别使用real_learner_bart_CGEC.pt、pseudo_native_bart_CGEC_media.pt两个模型进行预测: 原文每句话末尾不带句号 前者预测结果正常,未带句号、 后者预测结果末尾都自动添加了中文句号 推测: 是因为后者训练句子时,针对句号有无进行了训练? 可能是因为pseudo随机性把句号符号有无作为一对? 2: 原文正确文本: W12 STEAK西十二街牛排店(基于pseudo_native_bart_CGEC_media.pt) 预测输出: unk 西十二街牛排店。 推测: 该项目是否有方法添加实体,让模型知道W12 STEAK是一个实体; 另一方面:该项目的分词器是在哪块?网上查了查,好像百度的LAC2.0分词器挺牛逼,我想尝试是否 替换后有一些不一样的现象

HillZhang1999 commented 1 year ago
  1. 第一个可能是造数据的时候,有添加标点的错误;
  2. 本项目的分词器其实是字级别的。至于你说的实体问题,我们一般在工业界是通过白名单后处理的方式滤掉修改,比较可控一些。
essencejay commented 12 months ago
  1. 第一个可能是造数据的时候,有添加标点的错误;
  2. 本项目的分词器其实是字级别的。至于你说的实体问题,我们一般在工业界是通过白名单后处理的方式滤掉修改,比较可控一些。

好的,谢谢