stay-leave / weibo-public-opinion-analysis

基于微博数据的舆情分析项目,包括微博爬虫、LDA主题分析和情感分析。
658 stars 101 forks source link

评论无法爬取的问题 #2

Closed Edward-Joker closed 2 years ago

Edward-Joker commented 2 years ago

我在使用作者代码时出现了无法爬取的问题 1、按照代码要求,建立了正文_1.xlsx和正文_2.xlsx文件 image

2、添加了cookie值 image 3、运行文件 image 没有任何结果

stay-leave commented 2 years ago

在主函数下面的正文文件都是同一个(名称随意),其中需要的第二个变量(如 1),指的是提取正文中第二列,即bid。依据这些拼接成网址不断进行爬取。

Edward-Joker commented 2 years ago

您好,按照你的要求进行操作,拼接后的uids是空 image

image 这个评论信息表是否是有内容的?

stay-leave commented 2 years ago

抱歉,我之前未能表述清楚流程。 评论爬虫的处理流程: 1.使用我提到的正文爬取程序获取正文内容(之后另存为xlsx),格式如下: image 2.在主函数下写明正文文件的路径,如 image 3.网址拼接是在run函数下面,即 image

即输入文件是微博正文(需要用本项目提到的大佬的项目进行爬取,样例见1),输出文件是评论,格式如下: image

如果仍然未能获取到评论,那么你需要更换你的cookie至最新。

Edward-Joker commented 2 years ago

您好,非常感谢您的代码,我尝试了你提的操作。 1、更换cookie image 2、主函数没有进行更改 image 3、run函数没有进行更改 image 4、运行代码还是没有任何结果

是否可以添加你的私人账号进行交流?

Edward-Joker commented 2 years ago

这边是首先需要使用如下程序爬取微博博文,之后才能进行评论爬取吗? image

stay-leave commented 2 years ago

非常正确,我在说明里面已经提到需要先获取微博正文,才能进行评论的爬取。同理,需要先获取微博评论,才能进行用户信息的爬取。

Edward-Joker commented 2 years ago

1、我已经通过项目https://github.com/dataabc/weibo-search获得了微博内容 image

2、我对爬取到的微博文本,得到的是csv文件,我直接对文件进行了改名 由 迪丽热巴.csv 改为正文_.xlsx 但是在运行时出现这个 问题 ![Uploading image.png…]()

我想可能是直接对文件后缀修改造成的,请问这步是如何操作的

stay-leave commented 2 years ago

是这个报错吗? image 即可按该方式解决。谢谢提醒,我会将说明写得更清楚些。 截图中账号即是我,若有其他的问题可以在该站私信我。

Edward-Joker commented 2 years ago

您好,问题解决了,这边需要将文件另存为.xlsx image

stay-leave commented 2 years ago

好的,很高兴能帮到你。

stay-leave commented 2 years ago

同时我更新了更为稳定的多cookie版本,若对前一版本的爬取结果不满意(可能被反爬),可以采用此版本。

Edward-Joker commented 2 years ago

谢谢,请问多cookie版本会开源公布吗?

stay-leave commented 2 years ago

已经上传了,见爬虫程序说明。若是在做舆情分析方向的科研,可以一起交流(csdn私信我),最近在写相关的毕业论文.。

Edward-Joker commented 2 years ago

1、您好,由于csdn您设置了陌生人屏蔽,我这边在这里给你留言 我注意到上传的代码与csdn博客相近差一个评论合并代码 image

2、我是做文本方面级情感分析的,我现在尝试将我这个任务扩展到舆情领域

stay-leave commented 2 years ago

我最近也在做情感分析的毕设,现在我已经解除了屏蔽,麻烦私信我一下深入交流。