Closed so-coolboy closed 3 years ago
大神您好,有一个问题想请教一下,原作者论文中提到用了两个数据集进行评估,一个是SIGHAN数据集,作者的测试集中也有1100个文本,但是给出的效果如下图红线:
这和作者你给出的评估结果差距蛮大的,包括我查了一下SIGHAN数据集中给出的一些评测,貌似都达不到作者你的结果,代码我跑了一下,的确和作者你写的结果一致,所以我怀疑是不是评测的方法不一致导致的?
很抱歉现在才看到,我在做出该结果的时候也有过类似的怀疑,所以写了两种评测方式,一种是字级的一种是句级的,两种的都要比他们高,他们的这个结果个人认为主要有两个原因导致的:
大神您好,有一个问题想请教一下,原作者论文中提到用了两个数据集进行评估,一个是SIGHAN数据集,作者的测试集中也有1100个文本,但是给出的效果如下图红线:
这和作者你给出的评估结果差距蛮大的,包括我查了一下SIGHAN数据集中给出的一些评测,貌似都达不到作者你的结果,代码我跑了一下,的确和作者你写的结果一致,所以我怀疑是不是评测的方法不一致导致的?