请问可根据微博中每篇博文的链接来爬取微博博文吗

dataabc / weiboSpider

新浪微博爬虫，用python爬取新浪微博数据

8.37k stars 1.98k forks source link

Closed angolin22 closed 4 years ago

angolin22 commented 4 years ago

请问可根据微博中每篇博文的链接来爬取微博博文吗，并非是根据用户id和关键字来爬取微博博文

dataabc commented 4 years ago

可以，但是需要修改代码。

本程序有两种获取微博的方式，普通微博是通过微博列表页获取微博的，长微博会去微博详情页获取微博。后者就是根据博文的链接获取的，参考comment_parser.py，里面的url就是博文的链接。

如果还有问题欢迎继续讨论。

angolin22 commented 4 years ago

为什么我直接访问某个微博的url，比如：https://weibo.cn/1866405545/JbAyuqy7H。会报错误 2020-09-17 09:55:10 [scrapy.core.engine] DEBUG: Crawled (302) <GET https://weibo.cn/1866405545/JbAyuqy7H?type=comment> (referer: None) 2020-09-17 09:55:10 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <302 https://weibo.cn/1866405545/JbAyuqy7H?type=comment>: HTTP status code is not handled or not allowed 2020-09-17 09:55:10 [scrapy.core.engine] INFO: Closing spider (finished)

是因为没有登录的原因吗

dataabc commented 4 years ago

可能需要登录吧。

在爬取url时发生了重定向，而HTTP status code is not handled or not allowed，所以出错了。

angolin22 commented 4 years ago

谢谢，已解决

angolin22 commented 4 years ago

5089204622 2020-09-16 20:20