About full stop & UNK - Githubissues

HillZhang1999 / NaSGEC

Code & Data for our Paper "NaSGEC: Multi-Domain Chinese Grammatical Error Correction for Native Speaker Texts" (ACL 2023 Findings)

73 stars 6 forks source link

两个有意思的现场及个人推测：

1: 分别使用real_learner_bart_CGEC.pt、pseudo_native_bart_CGEC_media.pt两个模型进行预测：原文每句话末尾不带句号前者预测结果正常，未带句号、后者预测结果末尾都自动添加了中文句号推测: 是因为后者训练句子时，针对句号有无进行了训练? 可能是因为pseudo随机性把句号符号有无作为一对? 2: 原文正确文本: W12 STEAK西十二街牛排店(基于pseudo_native_bart_CGEC_media.pt) 预测输出: unk 西十二街牛排店。推测: 该项目是否有方法添加实体，让模型知道W12 STEAK是一个实体；另一方面：该项目的分词器是在哪块？网上查了查，好像百度的LAC2.0分词器挺牛逼，我想尝试是否替换后有一些不一样的现象

HillZhang1999 / NaSGEC

About full stop & UNK #7