Yuukiy / JavSP

汇总多站点数据的AV元数据刮削器
GNU General Public License v3.0
2.32k stars 206 forks source link

使用Puppeteer开发新的爬虫 #269

Closed qicfan closed 3 months ago

qicfan commented 3 months ago

功能建议

理论上能解决大部分的反爬问题,还可以在出问题时保存实时的网页截图和网页代码用来改进爬虫。 预计会会在配置文件中增加一个爬虫引擎的选项来启用这个功能,默认为原引擎(不影响主要功能) [可选功能] 选择要采集的元数据的语言(如果源站支持)

正在开发中,完成后会PR

提交须知

gejianya commented 3 months ago

这不得来点个赞,现在外面那么多刮削器,也就你们还在免费还持续更新,好多都停更咯!

glyh commented 3 months ago

不一定能解决所有问题。很多网站就算是使用浏览器,只要访问的频率比较高就会被认定成爬虫。比如JavLibrary。

glyh commented 3 months ago

而且还有一个很大的问题,Puppeteer是打包了整个浏览器的……虽然可以指定外部浏览器。

qicfan commented 3 months ago

最近在搞鸿蒙原生开发,时间不太多,可能要搁置啦。

qicfan commented 3 months ago

而且还有一个很大的问题,Puppeteer是打包了整个浏览器的……虽然可以指定外部浏览器。

可以用的时候下载,这个问题不大。

Yuukiy commented 3 months ago

最近在搞鸿蒙原生开发,时间不太多,可能要搁置啦。

我先关闭issue了,有进展的话欢迎PR