zihaolucky / Undergraduate-Innovation-Program

SNS用户交互学习行为研究
45 stars 18 forks source link

[Assignments]网页内容抓取练习 #1

Closed zihaolucky closed 11 years ago

zihaolucky commented 11 years ago

以“地震”为关键字,以雅安地震为时间起始点,抓取两个平台(知乎、百度知道)上属于此话题的所有帖子的主题、内容。

主要工作:

  1. 以便做文本分析。包括“冗余度”的讨论,这一块我打算先用文本匹配、文本相似度来评判,看看这种简单方式能不能做得好。

文本分析、分词完成之后,利用社会网络方法建立网络图

  1. 社会网络分析。

猜想:(这个放到后面做)

  1. 事件、时间序列。事件发生后,两个平台出现类似话题讨论的频率/数目如何变化?
zihaolucky commented 11 years ago

已完成,请看zhihu文件夹