Closed wybert closed 3 years ago
你好,你所在的单位和爬虫开发的单位所购买的数据库覆盖范围差异比较大,可以修改相关代码解决
发自我的iPhone
------------------ 原始邮件 ------------------ 发件人: wybert <notifications@github.com> 发送时间: 2020年10月10日 18:07 收件人: tomleung1996/wos_crawler <wos_crawler@noreply.github.com> 抄送: Subscribed <subscribed@noreply.github.com> 主题: 回复:[tomleung1996/wos_crawler] 爬取的记录数和网页搜索到的记录数差别太大 (#18)
您好,我发现我使用相同表达式,在wos网页和使用该爬虫得到的结果在记录数上差别较大
表达式:
TS=(COVID-19 OR "2019 novel coronaviruses" OR 2019-nCov OR SARS-CoV-2*) AND PY=(2020)
网页搜索条件设置,
网页搜索结果(68,323),
通过设置只选择筛选article,得到49,614条记录
使用爬虫的设置,
共得到19,502条记录,
对比起来相差的记录比较大,怎么解释这个结果不一样呢?是不是爬虫哪里需要更新?还是说爬虫所执行的查询和筛选条件和网页直接搜索的有不一样的地方
— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.
你好,你所在的单位和爬虫开发的单位所购买的数据库覆盖范围差异比较大,可以修改相关代码解决 发自我的iPhone
你好,我在武汉大学执行的搜索和爬虫,网页搜索得到的记录数是随不同学校不一样的么?
如果是武汉大学那应该是完全一致才对,我已经设置了提取已购买数据库的代码,你这个问题我还没有遇到过
发自我的iPhone
------------------ 原始邮件 ------------------ 发件人: wybert <notifications@github.com> 发送时间: 2020年10月10日 18:32 收件人: tomleung1996/wos_crawler <wos_crawler@noreply.github.com> 抄送: TomLeung <tomleung1996@qq.com>, Comment <comment@noreply.github.com> 主题: 回复:[tomleung1996/wos_crawler] 爬取的记录数和网页搜索到的记录数差别太大 (#18)
你好,你所在的单位和爬虫开发的单位所购买的数据库覆盖范围差异比较大,可以修改相关代码解决 发自我的iPhone
你好,我在武汉大学执行的搜索和爬虫,网页搜索得到的记录数是随不同学校不一样的么?
— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.
我这里有检索表达式,您方便测试下么?keneng 有些细节我忽视了?
或者你这里有没有一个测试的例子我好测试一下
我发现是网页请求数据库不同所导致的,我按照代码中请求的URL访问到网页
https://apps.webofknowledge.com/WOS_AdvancedSearch_input.do?product=WOS&XXXX
然后执行同样的语句得到的数据数目和爬取的是大致相同的。 从武汉大学图书馆进入wos也会跳转到该url
然而我是直接访问的https://www.webofknowledge.com/
,该链接会直接跳转为
https://apps.webofknowledge.com/UA_GeneralSearch_input.do?product=UA&XXXXX
URL中一个WOS
,另一个主要是UA
,他们的区别主要是:
WOS
主要指核心集,UA
则包含了所有的数据库;他们所支持的检索和筛选条件不一样。这样直接修改WOS
为UA
可能会报错。
ref: https://images.webofknowledge.com/images/help/WOS/hp_save_search_history.html
明白了,请注意这个爬虫是【WoS核心合集爬虫】。非核心合集的文献题录结构差异过大,没有考虑进行爬取设计
您好,我发现我使用相同表达式,在wos网页和使用该爬虫得到的结果在记录数上差别较大 表达式:
网页搜索条件设置, 网页搜索结果(68,323),
通过设置只选择筛选article,得到49,614条记录
使用爬虫的设置, 共得到19,502条记录,
对比起来相差的记录比较大,怎么解释这个结果不一样呢?是不是爬虫哪里需要更新?还是说爬虫所执行的查询和筛选条件和网页直接搜索的有不一样的地方