dataabc / weiboSpider

新浪微博爬虫,用python爬取新浪微博数据
8.33k stars 1.97k forks source link

获取内容不全 #510

Open demonxy opened 1 year ago

demonxy commented 1 year ago

感谢您申报bug,为了表示感谢,如果bug确实存在,您将出现在本项目的贡献者列表里;如果您不但发现了bug,还提供了很好的解决方案,我们会邀请您以pull request的方式成为本项目的代码贡献者(Contributor);如果您多次提供很好的pull request,我们将邀请您成为本项目的协助者(Collaborator)。当然,是否提供解决方按都是自愿的。不管是否是真正的bug、是否提供解决方案,我们都感谢您对本项目的帮助。

答:github

答:是

答:对

答:

答:

答:

1.在设置end_date为日期之后,获取到不到视频内容,只有纯文字或带图片的微博。设置为now数据正常。 2.内容获取不全,需要重复运行才会全部获取。 PS:程序无报错,主要配置如下: "since_date": "2015-01-01", "end_date": "2022-12-09", "random_wait_pages": [1, 1], "random_wait_seconds": [120, 180],

dataabc commented 1 year ago

感谢反馈。因为当end_date为日期时,使用了另一个接口,导致视频无法获取,且会漏爬,换成now即可。

Chendh1999 commented 1 year ago

感谢反馈。因为当end_date为日期时,使用了另一个接口,导致视频无法获取,且会漏爬,换成now即可。

发的微博内容过长,获取不到后半部分的信息的内容和地理位置,后面只是“全文”两字,请问这要怎么设置呢

dataabc commented 1 year ago

@Chendh1999 这个之前是能获取的,可能是微博改格式了,不确定。需要修改部分代码,我目前不方便调试,您可以使用免cookie版,它也可以获取长微博。

dataabc commented 1 year ago

@Alanyue0830 进度表示的是爬取与微博数的比,为空说明当前进度只有一条微博,且微博不含视频。或者您的end_date非now,此时无法获取视频。

dataabc commented 1 year ago

这个我也不清楚,最近不方便调试代码,如果您方便,您可以使用免cookie版。

songzy12 commented 1 year ago

感谢反馈。因为当end_date为日期时,使用了另一个接口,导致视频无法获取,且会漏爬,换成now即可。

给这条回复加一个(几年前)有较多细节讨论的参考:https://github.com/dataabc/weiboSpider/issues/207#issuecomment-705745449

我刚 double check 了一下,这个接口似乎确实有点问题,也暂时还没找到好的解决方法。

JamesLi2013 commented 1 year ago

@dataabc 获取全文时,发现有约1/3的条数全文获取失败,经过手动调试,CommentParser的get_longweibo方法,发现改成info = self.selector.xpath("//*[@id='M']")[0]就可以获取全部

dataabc commented 1 year ago

@JamesLi2013 感谢提供解决方案,如果方便您能否以pull request的方式提交这个修复呢,这样您还能成为本项目的contributor。当然这不是强制的,无论是否提交,都感谢您提供的方案,感谢对本项目的支持。

stale[bot] commented 6 months ago

This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your contributions.