dataabc / weiboSpider

新浪微博爬虫,用python爬取新浪微博数据
8.37k stars 1.98k forks source link

请问可根据微博中每篇博文的链接来爬取微博博文吗 #220

Closed angolin22 closed 4 years ago

angolin22 commented 4 years ago

请问可根据微博中每篇博文的链接来爬取微博博文吗,并非是根据用户id和关键字来爬取微博博文

dataabc commented 4 years ago

可以,但是需要修改代码。

本程序有两种获取微博的方式,普通微博是通过微博列表页获取微博的,长微博会去微博详情页获取微博。后者就是根据博文的链接获取的,参考comment_parser.py,里面的url就是博文的链接。

如果还有问题欢迎继续讨论。

angolin22 commented 4 years ago

为什么我直接访问某个微博的url,比如:https://weibo.cn/1866405545/JbAyuqy7H。会报错误 2020-09-17 09:55:10 [scrapy.core.engine] DEBUG: Crawled (302) <GET https://weibo.cn/1866405545/JbAyuqy7H?type=comment> (referer: None) 2020-09-17 09:55:10 [scrapy.spidermiddlewares.httperror] INFO: Ignoring response <302 https://weibo.cn/1866405545/JbAyuqy7H?type=comment>: HTTP status code is not handled or not allowed 2020-09-17 09:55:10 [scrapy.core.engine] INFO: Closing spider (finished)

是因为没有登录的原因吗

dataabc commented 4 years ago

可能需要登录吧。

在爬取url时发生了重定向,而HTTP status code is not handled or not allowed,所以出错了。

angolin22 commented 4 years ago

谢谢,已解决

angolin22 commented 4 years ago

5089204622 2020-09-16 20:20