AmoseKang / DrQA_cn

Other
37 stars 22 forks source link

请问作者制作了Webqa数据集的对应.db文件了吗? #7

Open liudonglei opened 6 years ago

liudonglei commented 6 years ago

首页的例子一直无法运行成功,提示需要指定一个.db的路径,读了相关代码后,是需要指定数据集对应的.db,repo里作者并未提供,尝试使用retriever/build_db.py制作,但是不成功,请问作者能否提供一个可运行的问中文问题的此repo版本,非常感谢。

PS:如下命令是可以运行的: python scripts/pipeline/sinteractive.py --model data/model/model8.mdl --gpu 1 --db data/wikipedia/docs.db

AmoseKang commented 6 years ago

暂时不提供,因为都是一些我们学校网站上爬的信息。你可以把相关代码注释掉,只用网络搜索的部分。

hoogang commented 5 years ago

暂时不提供,因为都是一些我们学校网站上爬的信息。你可以把相关代码注释掉,只用网络搜索的部分。

你的 db数据不是维基百科么? 还是自己爬的?

hoogang commented 5 years ago

暂时不提供,因为都是一些我们学校网站上爬的信息。你可以把相关代码注释掉,只用网络搜索的部分。

你的 db数据不是维基百科么? 还是自己爬的?

我发现在处理TF-IDF模型的时候,并行分词又会报错。。。。

AmoseKang commented 5 years ago

我的代码好久没有维护了,建议转移到facebook官方分支。db数据库和训练无关,使用任何信息都可以,实际上我们后期直接使用搜索引擎爬下来的网页作为分支。分词是使用java运行的第三方包,我个人测试感觉不是很稳定,但是corenlp提供的信息比较多,理论上效果比其他(jieba之类的)好,报错可能跟pexpect或者java默认分配的内存大小有关。

AmoseKang commented 5 years ago

TF-IDF模型可以用jieba分词,不会用到那些额外信息,建议稍微修改一下代码。最方便的方法还是使用搜索引擎爬虫,把问题当关键字输入进爬虫,然后爬取网页,过滤出纯文字,可以考虑只爬维基百科之类的。