lancopku / pkuseg-python

pkuseg多领域中文分词工具; The pkuseg toolkit for multi-domain Chinese word segmentation
MIT License
6.54k stars 986 forks source link

能不能和LTP、Hanlp在全新黑盒数据集上做对比呢? #17

Open yangbisheng2009 opened 5 years ago

yangbisheng2009 commented 5 years ago

1、拿测试语料去训练,再拿测试语料做测试,这完全就是不专业的做法 2、即便是几个分词工具都按照测试语料做训练,但是都是你们来做,你们更熟悉pkuseg的调试,所以调试效果肯定好,最终效果有偏

综上:如果不能提供全新黑盒数据的对比测试结果,那么就别吹的那么厉害

yaleimeng commented 5 years ago

论文可以忽悠,但是肯定没法横向评比的了。 这年头,大家这么认真,学者们都不能愉快地吹牛装13了。

jingjingxupku commented 5 years ago

1、拿测试语料去训练,再拿测试语料做测试,这完全就是不专业的做法 2、即便是几个分词工具都按照测试语料做训练,但是都是你们来做,你们更熟悉pkuseg的调试,所以调试效果肯定好,最终效果有偏

综上:如果不能提供全新黑盒数据的对比测试结果,那么就别吹的那么厉害

同意,应该用这3个模型都没被训练过的数据集做仿真。用训练模型的数据集做评估,这本身就没有比较意义

我们并没有用测试语料做训练。您这样说是有误导性的,可能会让别人误以为我们是在测试集上训练测试集上测试。

针对您的第二点,对所有工具包,我们都是使用了默认的超参数,并没有进行调参,pkuseg也没有调参。

为了解答您的疑虑,我们比较了各个工具包在特定领域训练,在未见过黑盒领域测试的结果:

ctb训练 msr ctb pku weibo all avg ood avg
jieba 82.75 87.14 87.12 85.68 85.67 85.18
thulac 83.50 94.56 89.13 91.00 89.55 87.88
pkuseg 83.67 95.69 89.67 91.19 90.06 88.18

all avg是所有测试集的平均,一定程度上反映平均性能 ood avg是除ctb测试集外其它测试集的平均,反映领域外分词性能

从中可以看出,我们的模型在未见过的语料上表现也是比较好的。由于我们对LTP和Hanlp工具包并不熟悉,训练和测试需要花一定时间,但是我们愿意尽快地补做更多实验,公布跟这些数据集比较的实验结果。感谢您的评论,我们会继续努力改进我们的代码,希望可以得到您的认可。

yangbisheng2009 commented 5 years ago

1、拿测试语料去训练,再拿测试语料做测试,这完全就是不专业的做法 2、即便是几个分词工具都按照测试语料做训练,但是都是你们来做,你们更熟悉pkuseg的调试,所以调试效果肯定好,最终效果有偏 综上:如果不能提供全新黑盒数据的对比测试结果,那么就别吹的那么厉害

同意,应该用这3个模型都没被训练过的数据集做仿真。用训练模型的数据集做评估,这本身就没有比较意义

我们并没有用测试语料做训练。您这样说是有误导性的,可能会让别人误以为我们是在测试集上训练测试集上测试。

针对您的第二点,对所有工具包,我们都是使用了默认的超参数,并没有进行调参,pkuseg也没有调参。

为了解答您的疑虑,我们比较了各个工具包在特定领域训练,在未见过黑盒领域测试的结果:

ctb训练 msr ctb pku weibo all avg ood avg jieba 82.75 87.14 87.12 85.68 85.67 85.18 thulac 83.50 94.56 89.13 91.00 89.55 87.88 pkuseg 83.67 95.69 89.67 91.19 90.06 88.18 all avg是所有测试集的平均,一定程度上反映平均性能 ood avg是除ctb测试集外其它测试集的平均,反映领域外分词性能

从中可以看出,我们的模型在未见过的语料上表现也是比较好的。由于我们对LTP和Hanlp工具包并不熟悉,训练和测试需要花一定时间,但是我们愿意尽快地补做更多实验,公布跟这些数据集比较的实验结果。感谢您的评论,我们会继续努力改进我们的代码,希望可以得到您的认可。

嗯,我觉得最后这一个表格是具有说服力的,建议readme里面优先贴上这个表格 原因是 很多人在尝试不同的分类工具的时候,一般是使用工具自带提供的模型来使用。这样能够更直观的比较

另外建议和 hanlp、ltp、ansj来做对比,因为凡是有过一定nlp经验的同学,都知道结巴分词是非常易用,但是效果不好。 感谢答复!