brightmart / nlp_chinese_corpus

大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP
MIT License
9.41k stars 1.54k forks source link

维基百科json版(wiki2019zh) 是否有百度云盘下载之外的获取方式? #3

Closed Miopas closed 5 years ago

Miopas commented 5 years ago

Hi,我想在 Linux 服务器上下载数据,请问“维基百科json版(wiki2019zh) ” 的数据能否在 https://dumps.wikimedia.org/zhwiki/latest/ 中找到?

如果没有的话,是否有其他的不通过百度云获取的方式?

brightmart commented 5 years ago

在原始的地方找不到,需要处理过才行。 你需要的话,可以先下载到本地再传到Linux上。 周末可以搞一个直接下载的链接。

Miopas commented 5 years ago

感谢回复。

我这边最大的麻烦是公司的电脑禁止安装云盘类的客户端,也禁止 usb 传输数据。当然我可以通过在家里下载好然后上传到其他我可以 access 的云端来解决这件事。

有一个建议是,把从源数据抽取出 json 格式数据的流程提交到 git 上,这样就可以直接从源数据获取啦。

brightmart commented 5 years ago

维基百科json版(wiki2019zh)新增直接下载通道,可以直接下载了。