Open rosystain opened 5 years ago
今日又观察了一下,似乎抓取的项目并非从源站首页按顺序抓,反而像是随机抓,甚至出现了17年的片子(并不在前几页上)
是从前N页抓取的, 但是应为是异步执行, 不一定按照页面顺序抓取, 有一定的随机性, 完成300个请求就结束了
至于老片子出现, 那可能是网站有时候是会有一批老片子发布把
如果你希望抓取尽可能多, 可以加大每次抓取数量, 但是延长抓取间隔时间 比如 按以下设置, 每8小时检查600个 [download] root_path = https://www.cdnbus.bid count = 600 interval = 28800
比对了下今天抓到的和源站首页展示的,有很大一部分从未见到过。 不知为何bustag没有抓下来,更新规则是默认的30分钟抓300个。 所以对更新抓取逻辑有点好奇。
另外有一部分片子的演员未显示出来。
新版海报变大了好评,建议更大一些,或者增加一个点击放大选项