kun-g / IA06_FA

Information Analysis Season 06 Final Assignment
2 stars 2 forks source link

图灵奖信息处理 #5

Open kun-g opened 4 years ago

kun-g commented 4 years ago

地址:https://amturing.acm.org/

之前整理了一下图灵奖网站个人页面能获取的信息:这里

计划

kun-g commented 4 years ago

2019/11/6, 21:32 悲剧... 网站上了Cloud flare 反爬虫,只能半自动了。 2019/11/7, 11:12 准备用Web Scraper来抓,先提取所有作者链接,然后批量抓取 2019/11/7, 12:02 抓取完成了,要做一下数据整理

kun-g commented 4 years ago

用Web Scraper抓取过程中遇到了一个问题:每个页面的地址是没有规律的。 用导入导出功能,可以轻松解决这个问题。 我写了个脚本generate_ws_sitemap.py来解决这个问题