评论时间 - Githubissues

stay-leave / weibo-public-opinion-analysis

基于微博数据的舆情分析项目，包括微博爬虫、LDA主题分析和情感分析。

649 stars 101 forks source link

Closed WisOcean closed 2 years ago

WisOcean commented 2 years ago

作者您好，我是个代码小白，在做一个情感分析的作业，使用您评论爬虫的过程中发现爬取不到对应的时间，想请教一下如何解决，谢谢

WisOcean commented 2 years ago

我看到您csdn里的文章解决问题了，应该是我爬取去年评论的原因，正则里没有匹配到年.....谢谢你的项目

stay-leave commented 2 years ago

对的，我刚才试了一下，等下我上传爬取去年评论的代码。

WisOcean commented 2 years ago

嗯嗯，另外我在刚刚爬取的过程中发现最多只会爬取3条评论，我想尽可能多的爬取，该怎么解决这个问题啊？（又打扰您了

stay-leave commented 2 years ago

有的可能只有三条，而且由于微博限制最多只能爬取五十页。经过我多次试验，想要爬取到尽量多需要使用comments-crawler_random.py，自己多弄几个cookie。我自己爬取到的最多也只有500条左右。

WisOcean commented 2 years ago

我用了4个cookie尝试了下，还是最多只能爬取三条，也用的是comments-crawler_random.py这个，顺便把sleep的时间也增加了，爬取的微博原文也是上百评论的那种......会不会和我爬的是2020年的博文评论有关啊

stay-leave commented 2 years ago

很有可能，有很多就是看着有几百条评论，但是点进去看不见，被屏蔽了、或者被删了。这样我也没办法。或许你检查下博文地址的bid和uid，进主页看看出现了什么问题。可能是我上面说的，也有可能是地址变了。

WisOcean commented 2 years ago

好像变成爬标记为热门的评论了，emmmm，我好菜，还是感谢作者的项目，我就用热门评论做吧，谢谢！！

stay-leave commented 2 years ago

那应该是几年前的网页结构变了，你可以适当修改下代码，在body（）里面，根据它的网页结构重新写下。

WisOcean commented 2 years ago

作者您好，我在运行excel转txt.py文件后发现txt里并没有数据写入，我excel的文件后缀也改成xlsx了，看你其他文章后也没有解决问题，所以又来打扰您了(/ω＼*)

stay-leave commented 2 years ago

你是把excel的文件另存为了吗，不能只改后缀。或者你看有报错吗？

WisOcean commented 2 years ago

没有任何报错，而且对应的txt文件也生成成功，只是里面没有清洗后的数据，excel文件也正常

WisOcean commented 2 years ago

txt文件里的行数也和excel里的行数对应

stay-leave commented 2 years ago

那就是被清洗掉了。解决方法：注释掉clean()函数，这个是用来做额外的数据清洗工作的。

WisOcean commented 2 years ago

运行分词处理.py后txt里的又都没了。。。

stay-leave commented 2 years ago

你在csdn私信我联系方式，详细给你看看

navinwen commented 1 year ago

我用了4个cookie尝试了下，还是最多只能爬取三条，也用的是comments-crawler_random.py这个，顺便把sleep的时间也增加了，爬取的微博原文也是上百评论的那种......会不会和我爬的是2020年的博文评论有关啊

我遇到了同样的问题只能爬3条..