爬完一个id自动停止

lplpjjj commented 4 years ago

为了更好的解决问题，请认真回答下面的问题。等到问题解决，请及时关闭本issue。

问：请您指明哪个版本运行出错（github版/PyPi版/全部）？
答：github
问：您使用的是否是最新的程序（是/否）？
答：是
问：爬取任意用户都会运行出错吗（是/否）？
答：是
问：若只有爬特定微博时才出错，能否提供出错微博的weibo_id或url（非必填）？
答：
问：若您已提供出错微博的weibo_id或url，可忽略此内容，否则能否提供出错账号的user_id及您配置的since_date，方便我们定位出错微博（非必填）？
答：
问：如果方便，请您描述出错详情，最好附上错误提示。
答：list index out of range Traceback (most recent call last): File "/Users/略/weibo/weiboSpider-master/weibo_spider/spider.py", line 273, in start self.write_weibo(weibos) File "/Users/略/weibo/weiboSpider-master/weibo_spider/spider.py", line 107, in write_weibo writer.write_weibo(weibos) File "/Users/略/weibo/weiboSpider-master/weibo_spider/writer/json_writer.py", line 49, in write_weibo data = self._update_json_data(data, [w.dict for w in weibos]) File "/Users/略/weibo/weiboSpider-master/weibo_spider/writer/json_writer.py", line 24, in _update_json_data if weibo_info[-1]['id'] == old['id']: IndexError: list index out of range

首先感谢作者开发这个code~我想一次性爬取多个用户，按照说明设置了list，但是仿佛程序每爬完一个id就会出现上述报错。我检查了爬下来的微博，时间都对，也都是爬下来的。只是不能自动跳到下一个id，想知道如何解决？

我检查了一下，发现问题出在write.json。从user id list开始的第二id开始，json file里的[weibo]就是空的，所以会有那个list index out of range的error；但与此同时cvs和txr的file是好的，能看到爬下来的微博。希望这个信息有用。

再次update一下，我发现运行途中，json里的weibo是有信息的；但是每一个id跑了一定页数之后，继续跑的时候就显示”0条微博写入csv/txt/json“，继续这样空跑十几页才停止。因此json里的weibo似乎被覆盖了，但是csv和txt里面是没有受影响的。希望这个信息有用。

dataabc commented 4 years ago

感谢热心反馈。

非常有价值的建议，原来的代码可能会产生空数据，写入json时会出错，现在应该解决了。如果还有问题，欢迎继续讨论。

lplpjjj commented 4 years ago

感谢热心反馈。

非常有价值的建议，原来的代码可能会产生空数据，写入json时会出错，现在应该解决了。如果还有问题，欢迎继续讨论。

已经解决了！谢谢作者！

dataabc / weiboSpider