stay-leave / weibo-public-opinion-analysis

基于微博数据的舆情分析项目,包括微博爬虫、LDA主题分析和情感分析。
586 stars 98 forks source link

评论时间 #4

Closed WisOcean closed 2 years ago

WisOcean commented 2 years ago

作者您好,我是个代码小白,在做一个情感分析的作业,使用您评论爬虫的过程中发现爬取不到对应的时间,想请教一下如何解决,谢谢

WisOcean commented 2 years ago

我看到您csdn里的文章解决问题了,应该是我爬取去年评论的原因,正则里没有匹配到年.....谢谢你的项目

stay-leave commented 2 years ago

对的,我刚才试了一下,等下我上传爬取去年评论的代码。

WisOcean commented 2 years ago

嗯嗯,另外我在刚刚爬取的过程中发现最多只会爬取3条评论,我想尽可能多的爬取,该怎么解决这个问题啊?(又打扰您了

stay-leave commented 2 years ago

有的可能只有三条,而且由于微博限制最多只能爬取五十页。经过我多次试验,想要爬取到尽量多需要使用comments-crawler_random.py,自己多弄几个cookie。我自己爬取到的最多也只有500条左右。

WisOcean commented 2 years ago

我用了4个cookie尝试了下,还是最多只能爬取三条,也用的是comments-crawler_random.py这个,顺便把sleep的时间也增加了,爬取的微博原文也是上百评论的那种......会不会和我爬的是2020年的博文评论有关啊

stay-leave commented 2 years ago

很有可能,有很多就是看着有几百条评论,但是点进去看不见,被屏蔽了、或者被删了。这样我也没办法。 或许你检查下博文地址的bid和uid,进主页看看出现了什么问题。可能是我上面说的,也有可能是地址变了。

WisOcean commented 2 years ago

好像变成爬标记为热门的评论了,emmmm,我好菜,还是感谢作者的项目,我就用热门评论做吧,谢谢!!

stay-leave commented 2 years ago

那应该是几年前的网页结构变了,你可以适当修改下代码,在body()里面,根据它的网页结构重新写下。

WisOcean commented 2 years ago

作者您好,我在运行excel转txt.py文件后发现txt里并没有数据写入,我excel的文件后缀也改成xlsx了,看你其他文章后也没有解决问题,所以又来打扰您了(/ω\*)

stay-leave commented 2 years ago

你是把excel的文件另存为了吗,不能只改后缀。或者你看有报错吗?

WisOcean commented 2 years ago

没有任何报错,而且对应的txt文件也生成成功,只是里面没有清洗后的数据,excel文件也正常

WisOcean commented 2 years ago

txt文件里的行数也和excel里的行数对应

stay-leave commented 2 years ago

那就是被清洗掉了。 解决方法:注释掉clean()函数,这个是用来做额外的数据清洗工作的。

WisOcean commented 2 years ago

运行分词处理.py后txt里的又都没了。。。

stay-leave commented 2 years ago

你在csdn私信我联系方式,详细给你看看

navinwen commented 1 year ago

我用了4个cookie尝试了下,还是最多只能爬取三条,也用的是comments-crawler_random.py这个,顺便把sleep的时间也增加了,爬取的微博原文也是上百评论的那种......会不会和我爬的是2020年的博文评论有关啊

我遇到了同样的问题 只能爬3条..