CUHKSZ-TQL / WeiboSpider_SentimentAnalysis

借助Python抓取微博数据,并对抓取的数据进行情绪分析
348 stars 85 forks source link

抓取数据显示 #3

Closed ALMA6 closed 5 years ago

ALMA6 commented 5 years ago

你好,我使用simple版本查看了一下我抓取的微博数据,Tweets和Comments对不上,比如说固定某一个Tweets,他对应的评论正常有23条,但是抓取的Comments显示只抓取了10条,并且这10条并不是连续的10条,好像随她喜欢,喜欢哪条评论抓哪条,这是什么原因?你们遇到过这种问题么?

seaweiqing commented 5 years ago

我们之前没有出现过这个问题,一条具有几百上千条评论的微博也能全部抓下来。你要看一看 weibo_spider.py 文件里面的获取所有页部分,确保这部分代码是正确的。

ALMA6 commented 5 years ago

谢谢,我少了个\。。。。。我现在遇到了一个新问题 Message: 'phantomjs' executable needs to be in PATH. 我配置了环境变量,点击exe也成功运行,我百度了一下,环境变量加r也不行 是什么问题?

ALMA6 commented 5 years ago

关键是不显示Message: 'phantomjs' executable needs to be in PATH.后抓的都是乱码 图片

ALMA6 commented 5 years ago

我使用senior版本的时候,获取cookies得到的都是乱码

------------------ 原始邮件 ------------------ 发件人: "Jessie"notifications@github.com; 发送时间: 2019年7月7日(星期天) 下午2:08 收件人: "CUHKSZ-TQL/WeiboSpider_SentimentAnalysis"WeiboSpider_SentimentAnalysis@noreply.github.com; 抄送: "by"1249182744@qq.com;"Author"author@noreply.github.com; 主题: Re: [CUHKSZ-TQL/WeiboSpider_SentimentAnalysis] 抓取数据显示 (#3)

我们之前没有出现过这个问题,一条具有几百上千条评论的微博也能全部抓下来。你要看一看 weibo_spider.py 文件里面的获取所有页部分,确保这部分代码是正确的。

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.

seaweiqing commented 5 years ago

你说的是构建账号池,然后获取每个账号的cookie吗?我记得我之前是在search分支里面遇到这个部分的,乱码问题我之前也出现过,应该还是环境没配好的问题。你看看你的数据库里面对应的collection有没有收集到正确的cookie,如果能获取到的话对后面的部分应该也是没有影响的。

ALMA6 commented 5 years ago

search分支我也是一个问题

这才第一步获取cookies

运行login.py的代码总是不成功 我本身是管理学 这对我来说比较困难

我能加你一下微信么?

------------------ 原始邮件 ------------------ 发件人: "Jessie"notifications@github.com; 发送时间: 2019年7月7日(星期天) 下午3:52 收件人: "CUHKSZ-TQL/WeiboSpider_SentimentAnalysis"WeiboSpider_SentimentAnalysis@noreply.github.com; 抄送: "by"1249182744@qq.com;"Author"author@noreply.github.com; 主题: Re: [CUHKSZ-TQL/WeiboSpider_SentimentAnalysis] 抓取数据显示 (#3)

你说的是构建账号池,然后获取每个账号的cookie吗?我记得我之前是在search分支里面遇到这个部分的,乱码问题我之前也出现过,应该还是环境没配好的问题。你看看你的数据库里面对应的collection有没有收集到正确的cookie,如果能获取到的话对后面的部分应该也是没有影响的。

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub, or mute the thread.

seaweiqing commented 5 years ago

好的,我的微信是wq19960510