IshtarTang / lofterSpider

lofter的爬虫,爬所有点过的喜欢/推荐/tag、爬取个人主页。
148 stars 17 forks source link

爬取大量博文时出错 #2

Closed boluohong closed 3 years ago

boluohong commented 3 years ago

认真地拜读了您的这个项目 您为每一个功能都详细地解说,做了辛勤的工作,再此首先感谢

我下午试用了本项目的python脚本 发现当爬取某一个博主的所有作品时,如果其作品数非常多的话 本脚本就会没爬取到,结果是没有爬到照片

我试了另一个作者的作品 发现其脚本能够克服以上问题 在此贴出出处希望可以给您提供参考,改进本项目 https://github.com/Litreily/capturer https://www.litreily.top/2018/03/17/lofter/

因为我觉得您的项目提供了更为丰富的功能 前文的作者只提供了lofter-图片这一功能 而您的项目提供了文字、图片的功能 一旦前文的问题得以改进 一定是一个更好的项目 所以才敢大胆的跟您提出以上想法

前文提到的那个项目,只能实现lofter的图片保存 如果您能克服爬取丢失的bug,而且又能覆盖文字、图片、视频 那么就会成为关于lofter最全面的项目了 这也是我发这个issue的原因和动机

最后再次感谢您做出的辛勤工作

IshtarTang commented 3 years ago

非常感谢您的反馈! 请问您使用的是项目中的哪一个程序,以及能否提供您运行程序时要爬取的主页,以便对程序测试和改进

boluohong commented 3 years ago

我直接用的l4_author_img.py

且不说别人那些图多的 https://lostinsun.lofter.com/ 这个主页只有20+张图,但是因为它里面有很多其他纯文字文章,所以居然一张图也没爬到

IshtarTang commented 3 years ago

image 我这边测试是可以正常爬到的

boluohong commented 3 years ago

请稍等,我再来测试一次 我昨天连续测了两个博客,都是一张图都没有爬到 也有可能是我某个参数没设置好

boluohong commented 3 years ago

2021-04-02_135247

没有爬到任意一张 我只更改了author_url,没有改其他的参数 恐怕是其他参数问题

boluohong commented 3 years ago

l4_author_img.txt

IshtarTang commented 3 years ago

这个输出是在tag过滤的时候被过滤掉了。 检查一下 target_tags 和 tags_filter_mode,有设target_tags 的话是只保存带指定tag的博客的 有指定target_tags 且需要保存没有tag的博客,需要把tags_filter_mode设为In

IshtarTang commented 3 years ago

image 改成这样,target_tags应为空,tags_filter_mode是"in"或者"out",不能是空字符串

boluohong commented 3 years ago

问题解决!! 不胜感激!!