tomleung1996 / wos_crawler

Web of Science Crawler
223 stars 73 forks source link

爬取的记录数和网页搜索到的记录数差别太大 #18

Closed wybert closed 3 years ago

wybert commented 3 years ago

您好,我发现我使用相同表达式,在wos网页和使用该爬虫得到的结果在记录数上差别较大 表达式:

TS=(COVID-19*  OR  "2019  novel  coronaviruses*"  OR  2019-nCov  OR  SARS-CoV-2*)  AND PY=(2020)

网页搜索条件设置, image 网页搜索结果(68,323), image

通过设置只选择筛选article,得到49,614条记录 image

使用爬虫的设置, image 共得到19,502条记录, image image

对比起来相差的记录比较大,怎么解释这个结果不一样呢?是不是爬虫哪里需要更新?还是说爬虫所执行的查询和筛选条件和网页直接搜索的有不一样的地方

tomleung1996 commented 3 years ago

你好,你所在的单位和爬虫开发的单位所购买的数据库覆盖范围差异比较大,可以修改相关代码解决

发自我的iPhone

------------------ 原始邮件 ------------------ 发件人: wybert <notifications@github.com> 发送时间: 2020年10月10日 18:07 收件人: tomleung1996/wos_crawler <wos_crawler@noreply.github.com> 抄送: Subscribed <subscribed@noreply.github.com> 主题: 回复:[tomleung1996/wos_crawler] 爬取的记录数和网页搜索到的记录数差别太大 (#18)

您好,我发现我使用相同表达式,在wos网页和使用该爬虫得到的结果在记录数上差别较大 表达式: TS=(COVID-19 OR "2019 novel coronaviruses" OR 2019-nCov OR SARS-CoV-2*) AND PY=(2020)
网页搜索条件设置,

网页搜索结果(68,323),

通过设置只选择筛选article,得到49,614条记录

使用爬虫的设置,

共得到19,502条记录,

对比起来相差的记录比较大,怎么解释这个结果不一样呢?是不是爬虫哪里需要更新?还是说爬虫所执行的查询和筛选条件和网页直接搜索的有不一样的地方

— You are receiving this because you are subscribed to this thread. Reply to this email directly, view it on GitHub, or unsubscribe.

wybert commented 3 years ago

你好,你所在的单位和爬虫开发的单位所购买的数据库覆盖范围差异比较大,可以修改相关代码解决 发自我的iPhone

你好,我在武汉大学执行的搜索和爬虫,网页搜索得到的记录数是随不同学校不一样的么?

tomleung1996 commented 3 years ago

如果是武汉大学那应该是完全一致才对,我已经设置了提取已购买数据库的代码,你这个问题我还没有遇到过

发自我的iPhone

------------------ 原始邮件 ------------------ 发件人: wybert <notifications@github.com> 发送时间: 2020年10月10日 18:32 收件人: tomleung1996/wos_crawler <wos_crawler@noreply.github.com> 抄送: TomLeung <tomleung1996@qq.com>, Comment <comment@noreply.github.com> 主题: 回复:[tomleung1996/wos_crawler] 爬取的记录数和网页搜索到的记录数差别太大 (#18)

你好,你所在的单位和爬虫开发的单位所购买的数据库覆盖范围差异比较大,可以修改相关代码解决 发自我的iPhone

你好,我在武汉大学执行的搜索和爬虫,网页搜索得到的记录数是随不同学校不一样的么?

— You are receiving this because you commented. Reply to this email directly, view it on GitHub, or unsubscribe.

wybert commented 3 years ago

我这里有检索表达式,您方便测试下么?keneng 有些细节我忽视了?

wybert commented 3 years ago

或者你这里有没有一个测试的例子我好测试一下

wybert commented 3 years ago

我发现是网页请求数据库不同所导致的,我按照代码中请求的URL访问到网页

https://apps.webofknowledge.com/WOS_AdvancedSearch_input.do?product=WOS&XXXX

然后执行同样的语句得到的数据数目和爬取的是大致相同的。 从武汉大学图书馆进入wos也会跳转到该url

然而我是直接访问的https://www.webofknowledge.com/,该链接会直接跳转为

https://apps.webofknowledge.com/UA_GeneralSearch_input.do?product=UA&XXXXX

URL中一个WOS,另一个主要是UA,他们的区别主要是: WOS主要指核心集,UA则包含了所有的数据库;他们所支持的检索和筛选条件不一样。这样直接修改WOSUA可能会报错。

image image

ref: https://images.webofknowledge.com/images/help/WOS/hp_save_search_history.html

tomleung1996 commented 3 years ago

明白了,请注意这个爬虫是【WoS核心合集爬虫】。非核心合集的文献题录结构差异过大,没有考虑进行爬取设计