Closed qiningli closed 3 years ago
Hi,当时是从张梅山老师的主页上下载的,记得张老师有篇EMNLP用到这个数据集,麻烦参考一下张老师的文章。
Hi,当时是从张梅山老师的主页上下载的,记得张老师有篇EMNLP用到这个数据集,麻烦参考一下张老师的文章。
谢谢回复。查了一下那篇说用的ctb7,没有写切分依据。我现在想把自己的结果和以前sighan2008的结果作比较,虽然有点过分。。。还是想问一下您有没有sighan2008原来的测试文件,只需要测试集,不需要训练集,因为我发现不同的切分方法测试结果差挺多的。。。
中文分词的拆分与句法不同,的确很麻烦。sighan2008有版权协议,抱歉无法公开。开源的这10个语料库加起来量级比sighan2008大多了,应该有较大的说服力。
中文分词的拆分与句法不同,的确很麻烦。sighan2008有版权协议,抱歉无法公开。开源的这10个语料库加起来量级比sighan2008大多了,应该有较大的说服力。
嗯好的
您好,请问data/other/ctb里的数据是sighan 2008的吗?如果不是的话,是按照什么标准切分的呢,和《Chinese Comma Disambiguation for Discourse Analysis》(Yang & Xue 2012)里的切分不太一样