ctb数据集的切分 - Githubissues

hankcs / multi-criteria-cws

Simple Solution for Multi-Criteria Chinese Word Segmentation

GNU General Public License v3.0

300 stars 84 forks source link

Closed qiningli closed 3 years ago

qiningli commented 3 years ago

您好，请问data/other/ctb里的数据是sighan 2008的吗？如果不是的话，是按照什么标准切分的呢，和《Chinese Comma Disambiguation for Discourse Analysis》（Yang & Xue 2012）里的切分不太一样

hankcs commented 3 years ago

Hi，当时是从张梅山老师的主页上下载的，记得张老师有篇EMNLP用到这个数据集，麻烦参考一下张老师的文章。

qiningli commented 3 years ago

Hi，当时是从张梅山老师的主页上下载的，记得张老师有篇EMNLP用到这个数据集，麻烦参考一下张老师的文章。

谢谢回复。查了一下那篇说用的ctb7，没有写切分依据。我现在想把自己的结果和以前sighan2008的结果作比较，虽然有点过分。。。还是想问一下您有没有sighan2008原来的测试文件，只需要测试集，不需要训练集，因为我发现不同的切分方法测试结果差挺多的。。。

hankcs commented 3 years ago

中文分词的拆分与句法不同，的确很麻烦。sighan2008有版权协议，抱歉无法公开。开源的这10个语料库加起来量级比sighan2008大多了，应该有较大的说服力。

qiningli commented 3 years ago

中文分词的拆分与句法不同，的确很麻烦。sighan2008有版权协议，抱歉无法公开。开源的这10个语料库加起来量级比sighan2008大多了，应该有较大的说服力。

嗯好的