Closed Dioxideme closed 4 years ago
数据集可以分享下嘛?
数据集可以分享下嘛?
你好,我目前也只找到了toutiao_cat_data.txt这个数据集,地址在https://github.com/skdjfla/toutiao-text-classfication-dataset。如果您找到了其他数据集,也请分享下。
嗯嗯,谢谢,可是这是文本分类数据集?不是纠错数据集啊,可以用于文本纠错吗,我主要是形近字的纠错。那你做纠错模型是用的这个数据集吗?https://github.com/shibing624/pycorrector 这个GitHub上有一个nlpcc 数据集,但是是.src格式,我不知道怎么读取,你看一下,如果你会读取,麻烦告诉我哈,那个加个微信吧,你也是做文本纠错吗? … ------------------ 原始邮件 ------------------ 发件人: "Dioxideme"<notifications@github.com>; 发送时间: 2020年6月24日(星期三) 下午5:56 收件人: "hiyoung123/SoftMaskedBert"<SoftMaskedBert@noreply.github.com>; 抄送: "王俊艳"<1079158605@qq.com>;"Comment"<comment@noreply.github.com>; 主题: Re: [hiyoung123/SoftMaskedBert] 请问data/nlp7294/目录中的数据集是什么 (#9) 数据集可以分享下嘛? 你好,我目前也只找到了toutiao_cat_data.txt这个数据集,地址在https://github.com/skdjfla/toutiao-text-classfication-dataset。如果您找到了其他数据集,也请分享下。 — You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
这个项目的load_toutiao_dataset1()函数就是使用的该数据集来生成错误数据用于纠错。
nlp7294dataset估计是这个 ?
新闻标题短文本分类 | 2019年12月 | chenfengshf |
---|
https://www.kesci.com/mw/dataset/5dd645fca0cb22002c94e65d/file
这个数据集
新闻标题短文本分类 2019年12月 chenfengshf https://www.kesci.com/mw/dataset/5dd645fca0cb22002c94e65d/file 这个数据集的是哪儿的呀 ,我有这个数据集 但是下载时间过长 找不到数据集来源
def load_toutiao_dataset2(): dataset = [] file_path = 'data/nlp7294/' for file in os.listdir(file_path): index = -1 with open(file_path+file, 'r') as f: for line in f: index += 1 if index == 0: continue line = line.strip().split()[1] dataset.append(line) return dataset