tomleung1996 / wos_crawler

Web of Science Crawler
223 stars 73 forks source link

【已解决】请求:增加新功能——爬取检索结果的 “引文报告”中的 施引文献(的全部题录信息) #7

Open matrixChimera opened 4 years ago

matrixChimera commented 4 years ago

需求:

使用检索式得到检索结果(1767篇文献)后,还需要爬取对应的施引文献的全部题录信息:

创建引文报告-Step1

↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓

创建引文报告-Step2

↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓

创建引文报告-Step3

可能的方法——新建函数直接通过给定的 URL参数 爬取对应URL的文献题录信息?

  1. 检索结果的URL:http://apps.webofknowledge.com.jerome.stjohns.edu:81/summary.do?locale=zh_CN&errorKey=&viewType=summary&product=WOS&search_mode=GeneralSearch&qid=1771&SID=7DLMwUZbszh7bVyYl3d

  2. 检索结果的施引文献的URL:http://apps.webofknowledge.com.jerome.stjohns.edu:81/NonSelfCitingArticles.do?product=WOS&search_mode=NonSelfCitingTCA&qid=1772&action=nonselfCA&SID=7DLMwUZbszh7bVyYl3d&viewType=summary&betterCount=11872

根据URL爬取施引文献

平台:

Macos Catalina 版本 10.15.1

matrixChimera commented 4 years ago

需求:

使用检索式得到检索结果(1767篇文献)后,还需要爬取对应的施引文献的全部题录信息:

创建引文报告-Step1

↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓

创建引文报告-Step2

↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓↓

创建引文报告-Step3

解决方法:

  1. 改写@tomleung1996 编写的原文件→改写后的文件.zip (main.py(路径:wos_crawler/main.py));
  2. 增加一个spider文件→增加的文件.zip (wos_citing_articles_query_spider.py(路径:wos_crawler/spiders/wos_citing_articles_query_spider.py))

使用方法:

建议:

建议@tomleung1996 考虑将本项目内容修改为英文或中英双语,以便这个优秀的项目有更广泛的受众。

*注:本次我改写的main.py和增加的wos_citing_articles_query_spider.py都已改写为全英内容,敬请@tomleung1996 参考→运行main.py使用wos_citing_articles_query_spider爬取(去除自引的)施引文献的结果:

Demo-crawl_citing_articles

平台:

Macos Catalina 版本 10.15.1

tomleung1996 commented 4 years ago

非常感谢您的贡献!我有空检查完代码之后将进一步完善,希望您能提交一个Pull request 谢谢

hanxu49 commented 3 years ago

请求,在检索式中按照DOI进行检索,能否在爬取施引文献(的全部题录信息)的基础上爬取该篇论文对应的【引用的参考文献】,期待回复,不甚感激!

Cikycn commented 3 years ago

请求,WOS_Crawler能不能循环下载给定文章标题的引文报告呢

Cikycn commented 3 years ago

请求,在检索式中按照DOI进行检索,能否在爬取施引文献(的全部题录信息)的基础上爬取该篇论文对应的【引用的参考文献】,期待回复,不甚感激!

同求