Open demonxy opened 1 year ago
感谢反馈。因为当end_date为日期时,使用了另一个接口,导致视频无法获取,且会漏爬,换成now即可。
感谢反馈。因为当end_date为日期时,使用了另一个接口,导致视频无法获取,且会漏爬,换成now即可。
发的微博内容过长,获取不到后半部分的信息的内容和地理位置,后面只是“全文”两字,请问这要怎么设置呢
@Chendh1999 这个之前是能获取的,可能是微博改格式了,不确定。需要修改部分代码,我目前不方便调试,您可以使用免cookie版,它也可以获取长微博。
@Alanyue0830 进度表示的是爬取与微博数的比,为空说明当前进度只有一条微博,且微博不含视频。或者您的end_date非now,此时无法获取视频。
这个我也不清楚,最近不方便调试代码,如果您方便,您可以使用免cookie版。
感谢反馈。因为当end_date为日期时,使用了另一个接口,导致视频无法获取,且会漏爬,换成now即可。
给这条回复加一个(几年前)有较多细节讨论的参考:https://github.com/dataabc/weiboSpider/issues/207#issuecomment-705745449
我刚 double check 了一下,这个接口似乎确实有点问题,也暂时还没找到好的解决方法。
@dataabc 获取全文时,发现有约1/3的条数全文获取失败,经过手动调试,CommentParser的get_longweibo方法,发现改成info = self.selector.xpath("//*[@id='M']")[0]就可以获取全部
@JamesLi2013 感谢提供解决方案,如果方便您能否以pull request的方式提交这个修复呢,这样您还能成为本项目的contributor。当然这不是强制的,无论是否提交,都感谢您提供的方案,感谢对本项目的支持。
This issue has been automatically marked as stale because it has not had recent activity. It will be closed if no further activity occurs. Thank you for your contributions.
感谢您申报bug,为了表示感谢,如果bug确实存在,您将出现在本项目的贡献者列表里;如果您不但发现了bug,还提供了很好的解决方案,我们会邀请您以pull request的方式成为本项目的代码贡献者(Contributor);如果您多次提供很好的pull request,我们将邀请您成为本项目的协助者(Collaborator)。当然,是否提供解决方按都是自愿的。不管是否是真正的bug、是否提供解决方案,我们都感谢您对本项目的帮助。
答:github
答:是
答:对
答:
答:
答:
1.在设置end_date为日期之后,获取到不到视频内容,只有纯文字或带图片的微博。设置为now数据正常。 2.内容获取不全,需要重复运行才会全部获取。 PS:程序无报错,主要配置如下: "since_date": "2015-01-01", "end_date": "2022-12-09", "random_wait_pages": [1, 1], "random_wait_seconds": [120, 180],