hankcs / multi-criteria-cws

Simple Solution for Multi-Criteria Chinese Word Segmentation
http://www.hankcs.com/nlp/segment/multi-criteria-cws.html
GNU General Public License v3.0
300 stars 84 forks source link

ctb数据集的切分 #14

Closed qiningli closed 3 years ago

qiningli commented 3 years ago

您好,请问data/other/ctb里的数据是sighan 2008的吗?如果不是的话,是按照什么标准切分的呢,和《Chinese Comma Disambiguation for Discourse Analysis》(Yang & Xue 2012)里的切分不太一样

hankcs commented 3 years ago

Hi,当时是从张梅山老师的主页上下载的,记得张老师有篇EMNLP用到这个数据集,麻烦参考一下张老师的文章。

qiningli commented 3 years ago

Hi,当时是从张梅山老师的主页上下载的,记得张老师有篇EMNLP用到这个数据集,麻烦参考一下张老师的文章。

谢谢回复。查了一下那篇说用的ctb7,没有写切分依据。我现在想把自己的结果和以前sighan2008的结果作比较,虽然有点过分。。。还是想问一下您有没有sighan2008原来的测试文件,只需要测试集,不需要训练集,因为我发现不同的切分方法测试结果差挺多的。。。

hankcs commented 3 years ago

中文分词的拆分与句法不同,的确很麻烦。sighan2008有版权协议,抱歉无法公开。开源的这10个语料库加起来量级比sighan2008大多了,应该有较大的说服力。

qiningli commented 3 years ago

中文分词的拆分与句法不同,的确很麻烦。sighan2008有版权协议,抱歉无法公开。开源的这10个语料库加起来量级比sighan2008大多了,应该有较大的说服力。

嗯好的