tomleung1996 / wos_crawler

Web of Science Crawler
223 stars 73 forks source link

使用gui下载无法提取到qid #14

Closed gankle closed 4 years ago

gankle commented 4 years ago

以下内容,上半部分为注释掉使用gui下载,利用检索式下载所获取的结果;下半部分为注释掉检索式下载,使用gui下载的结果。二者网络环境均相同,挂了学校vpn。请问作者大大,这个是什么回事呢?

==== RESTART: C:\Users\gaj62\Desktop\wos_crawler-master\wos_crawler\main.py ==== 使用给定的SID: E5gsGHmjPtA2AxeNeM6 提取得到SID: 7CNcGlIp6hffHzoWC8P 已购买的数据库为: ['IC', 'SCI', 'CCR', 'SSCI'] 提取得到qid: 1 共有813条文献需要下载 正在下载第 1 到第 500 条文献 正在下载第 501 到第 813 条文献 --成功下载第 1 到第 500 条文献-- --成功下载第 501 到第 813 条文献-- 爬取完成,开始导入数据库(fieldtagged/plaintext) 正在解析../output/advanced_query/2020-06-09-14.57.48\1-500.txt…… 解析../output/advanced_query/2020-06-09-14.57.48\1-500.txt完成,正在写入数据库…… 插入../output/advanced_query/2020-06-09-14.57.48\1-500.txt完成

正在解析../output/advanced_query/2020-06-09-14.57.48\501-813.txt…… 解析../output/advanced_query/2020-06-09-14.57.48\501-813.txt完成,正在写入数据库…… 插入../output/advanced_query/2020-06-09-14.57.48\501-813.txt完成

开始处理内部引证关系…… 全部解析完成

==== RESTART: C:\Users\gaj62\Desktop\wos_crawler-master\wos_crawler\main.py ==== 保存路径为:C:/Users/gaj62/Desktop/wos爬虫 爬取文献类型:All document types 保存格式:Plain Text 检索式为:gingival 正在调用WosAdvancedQuerySpider进行爬取…… 使用给定的SID: None 提取得到SID: 6FYw6NNLFFdR1sRwdDL 已购买的数据库为: ['IC', 'SCI', 'CCR', 'SSCI'] 爬取完成,开始导入数据库(fieldtagged/plaintext) 开始处理内部引证关系…… 爬取完成!

gankle commented 4 years ago

输出文件夹内也是空的

tomleung1996 commented 4 years ago

如果用非gui可以爬就没必要用gui了,那部分很久没更新

发自我的iPhone

------------------ 原始邮件 ------------------ 发件人: gankle <notifications@github.com> 发送时间: 2020年6月9日 15:15 收件人: tomleung1996/wos_crawler <wos_crawler@noreply.github.com> 抄送: Subscribed <subscribed@noreply.github.com> 主题: 回复:[tomleung1996/wos_crawler] 使用gui下载无法提取到qid (#14)

以下内容,上半部分为注释掉使用gui下载,利用检索式下载所获取的结果;下半部分为注释掉检索式下载,使用gui下载的结果。二者网络环境均相同,挂了学校vpn。请问作者大大,这个是什么回事呢?

==== RESTART: C:\Users\gaj62\Desktop\wos_crawler-master\wos_crawler\main.py ==== 使用给定的SID: E5gsGHmjPtA2AxeNeM6 提取得到SID: 7CNcGlIp6hffHzoWC8P 已购买的数据库为: ['IC', 'SCI', 'CCR', 'SSCI'] 提取得到qid: 1 共有813条文献需要下载 正在下载第 1 到第 500 条文献 正在下载第 501 到第 813 条文献 --成功下载第 1 到第 500 条文献-- --成功下载第 501 到第 813 条文献-- 爬取完成,开始导入数据库(fieldtagged/plaintext) 正在解析../output/advanced_query/2020-06-09-14.57.48\1-500.txt…… 解析../output/advanced_query/2020-06-09-14.57.48\1-500.txt完成,正在写入数据库…… 插入../output/advanced_query/2020-06-09-14.57.48\1-500.txt完成

正在解析../output/advanced_query/2020-06-09-14.57.48\501-813.txt…… 解析../output/advanced_query/2020-06-09-14.57.48\501-813.txt完成,正在写入数据库…… 插入../output/advanced_query/2020-06-09-14.57.48\501-813.txt完成

开始处理内部引证关系…… 全部解析完成

==== RESTART: C:\Users\gaj62\Desktop\wos_crawler-master\wos_crawler\main.py ==== 保存路径为:C:/Users/gaj62/Desktop/wos爬虫 爬取文献类型:All document types 保存格式:Plain Text 检索式为:gingival 正在调用WosAdvancedQuerySpider进行爬取…… 使用给定的SID: None 提取得到SID: 6FYw6NNLFFdR1sRwdDL 已购买的数据库为: ['IC', 'SCI', 'CCR', 'SSCI'] 爬取完成,开始导入数据库(fieldtagged/plaintext) 开始处理内部引证关系…… 爬取完成!

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.

gankle commented 4 years ago

如果用非gui可以爬就没必要用gui了,那部分很久没更新 发自我的iPhone ------------------ 原始邮件 ------------------ 发件人: gankle <notifications@github.com> 发送时间: 2020年6月9日 15:15 收件人: tomleung1996/wos_crawler <wos_crawler@noreply.github.com> 抄送: Subscribed <subscribed@noreply.github.com> 主题: 回复:[tomleung1996/wos_crawler] 使用gui下载无法提取到qid (#14) 以下内容,上半部分为注释掉使用gui下载,利用检索式下载所获取的结果;下半部分为注释掉检索式下载,使用gui下载的结果。二者网络环境均相同,挂了学校vpn。请问作者大大,这个是什么回事呢? ==== RESTART: C:\Users\gaj62\Desktop\wos_crawler-master\wos_crawler\main.py ==== 使用给定的SID: E5gsGHmjPtA2AxeNeM6 提取得到SID: 7CNcGlIp6hffHzoWC8P 已购买的数据库为: ['IC', 'SCI', 'CCR', 'SSCI'] 提取得到qid: 1 共有813条文献需要下载 正在下载第 1 到第 500 条文献 正在下载第 501 到第 813 条文献 --成功下载第 1 到第 500 条文献-- --成功下载第 501 到第 813 条文献-- 爬取完成,开始导入数据库(fieldtagged/plaintext) 正在解析../output/advanced_query/2020-06-09-14.57.48\1-500.txt…… 解析../output/advanced_query/2020-06-09-14.57.48\1-500.txt完成,正在写入数据库…… 插入../output/advanced_query/2020-06-09-14.57.48\1-500.txt完成 正在解析../output/advanced_query/2020-06-09-14.57.48\501-813.txt…… 解析../output/advanced_query/2020-06-09-14.57.48\501-813.txt完成,正在写入数据库…… 插入../output/advanced_query/2020-06-09-14.57.48\501-813.txt完成 开始处理内部引证关系…… 全部解析完成 ==== RESTART: C:\Users\gaj62\Desktop\wos_crawler-master\wos_crawler\main.py ==== 保存路径为:C:/Users/gaj62/Desktop/wos爬虫 爬取文献类型:All document types 保存格式:Plain Text 检索式为:gingival 正在调用WosAdvancedQuerySpider进行爬取…… 使用给定的SID: None 提取得到SID: 6FYw6NNLFFdR1sRwdDL 已购买的数据库为: ['IC', 'SCI', 'CCR', 'SSCI'] 爬取完成,开始导入数据库(fieldtagged/plaintext) 开始处理内部引证关系…… 爬取完成! — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.

谢谢!非gui可以爬纯文本,但导出为tab delimited(win,utf-8)的数据结果为null

tomleung1996 commented 4 years ago

文件类型修改为tabWinUnicode

参考main gui文件里面的对应字段

发自我的iPhone

------------------ 原始邮件 ------------------ 发件人: gankle <notifications@github.com> 发送时间: 2020年6月9日 16:26 收件人: tomleung1996/wos_crawler <wos_crawler@noreply.github.com> 抄送: TomLeung <tomleung1996@qq.com>, Comment <comment@noreply.github.com> 主题: 回复:[tomleung1996/wos_crawler] 使用gui下载无法提取到qid (#14)

如果用非gui可以爬就没必要用gui了,那部分很久没更新 发自我的iPhone … ------------------ 原始邮件 ------------------ 发件人: gankle <notifications@github.com> 发送时间: 2020年6月9日 15:15 收件人: tomleung1996/wos_crawler <wos_crawler@noreply.github.com> 抄送: Subscribed <subscribed@noreply.github.com> 主题: 回复:[tomleung1996/wos_crawler] 使用gui下载无法提取到qid (#14) 以下内容,上半部分为注释掉使用gui下载,利用检索式下载所获取的结果;下半部分为注释掉检索式下载,使用gui下载的结果。二者网络环境均相同,挂了学校vpn。请问作者大大,这个是什么回事呢? ==== RESTART: C:\Users\gaj62\Desktop\wos_crawler-master\wos_crawler\main.py ==== 使用给定的SID: E5gsGHmjPtA2AxeNeM6 提取得到SID: 7CNcGlIp6hffHzoWC8P 已购买的数据库为: ['IC', 'SCI', 'CCR', 'SSCI'] 提取得到qid: 1 共有813条文献需要下载 正在下载第 1 到第 500 条文献 正在下载第 501 到第 813 条文献 --成功下载第 1 到第 500 条文献-- --成功下载第 501 到第 813 条文献-- 爬取完成,开始导入数据库(fieldtagged/plaintext) 正在解析../output/advanced_query/2020-06-09-14.57.48\1-500.txt…… 解析../output/advanced_query/2020-06-09-14.57.48\1-500.txt完成,正在写入数据库…… 插入../output/advanced_query/2020-06-09-14.57.48\1-500.txt完成 正在解析../output/advanced_query/2020-06-09-14.57.48\501-813.txt…… 解析../output/advanced_query/2020-06-09-14.57.48\501-813.txt完成,正在写入数据库…… 插入../output/advanced_query/2020-06-09-14.57.48\501-813.txt完成 开始处理内部引证关系…… 全部解析完成 ==== RESTART: C:\Users\gaj62\Desktop\wos_crawler-master\wos_crawler\main.py ==== 保存路径为:C:/Users/gaj62/Desktop/wos爬虫 爬取文献类型:All document types 保存格式:Plain Text 检索式为:gingival 正在调用WosAdvancedQuerySpider进行爬取…… 使用给定的SID: None 提取得到SID: 6FYw6NNLFFdR1sRwdDL 已购买的数据库为: ['IC', 'SCI', 'CCR', 'SSCI'] 爬取完成,开始导入数据库(fieldtagged/plaintext) 开始处理内部引证关系…… 爬取完成! — You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.

谢谢!非gui可以爬纯文本,但导出为tab delimited(win,utf-8)的数据结果为null

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.