owner888 / phpspider

《我用爬虫一天时间“偷了”知乎一百万用户,只为证明PHP是世界上最好的语言 》所使用的程序
3.49k stars 1.18k forks source link

如果知道动态网页的加载API并且也可以请求到json的数据,怎么能通过接口嵌入到框架里进一步抓取 #158

Open smil4ever opened 3 years ago

smil4ever commented 3 years ago

我想在抓取新闻网站,网站是动态加载的,通过浏览器是能看到它的请求更多数据的接口,也能请求下载到数据,但是是json格式的,相当于是能取到列表页数据的,这种场景还是比较多的,怎么能通过框架哪个中间件接口能嵌入进去继续爬取呢?目前我看到的是通过addUrl可以提前告诉框架所有详情页的url这种方式

owner888 commented 3 years ago

我想在抓取新闻网站,网站是动态加载的,通过浏览器是能看到它的请求更多数据的接口,也能请求下载到数据,但是是json格式的,相当于是能取到列表页数据的,这种场景还是比较多的,怎么能通过框架哪个中间件接口能嵌入进去继续爬取呢?目前我看到的是通过addUrl可以提前告诉框架所有详情页的url这种方式

是的,通过addUrl可以实现