kun-g / IA06_FA

Information Analysis Season 06 Final Assignment
2 stars 2 forks source link

Wikipedia数据处理 #4

Open kun-g opened 4 years ago

kun-g commented 4 years ago

这个Issue用来讨论Wikipedia的数据处理吧。

我今天(2019/11/6, 20:40)实现了人物页面右侧的biography的抓取,用Python内置的string.Template实现报告生成,比较粗糙,不过可以先看看。

TODO:

kun-g commented 4 years ago

下面是程序生成的报告

Herbert A. Simon

维基百科地址:Herbert A. Simon

时间

生卒年月

1916-06-15 - (2001-02-09)

求学经历

空间

学术领域

获奖情况

所属机构

变量

主要成就

合作关系

师承关系

老师

学生

Mondseen commented 4 years ago

当前WIKI这样粗糙地抓右侧清单,我觉得挺好,比较简洁。

ipruning commented 4 years ago

👍👍 抓得不错。

师承关系可以交叉验证 neurotree 网站构架也挺清晰的,可抓。

By the way,我看 Wiki 的末尾一般会标注出该作者的出版物引文,理论上是可以抓取下来导入 Zotero 中的,参考 Zotero 标准化导入

kun-g commented 4 years ago

👍👍 抓得不错。

师承关系可以交叉验证 neurotree 网站构架也挺清晰的,可抓。

By the way,我看 Wiki 的末尾一般会标注出该作者的出版物引文,理论上是可以抓取下来导入 Zotero 中的,参考 Zotero 标准化导入

这个neurotree好厉害,Wikipedia的参考文献我还没考虑好怎么处理

kun-g commented 4 years ago

抓不了的数据: https://en.wikipedia.org/wiki/Harold_Lasswell