Open smil4ever opened 3 years ago
我想在抓取新闻网站,网站是动态加载的,通过浏览器是能看到它的请求更多数据的接口,也能请求下载到数据,但是是json格式的,相当于是能取到列表页数据的,这种场景还是比较多的,怎么能通过框架哪个中间件接口能嵌入进去继续爬取呢?目前我看到的是通过addUrl可以提前告诉框架所有详情页的url这种方式
是的,通过addUrl可以实现
我想在抓取新闻网站,网站是动态加载的,通过浏览器是能看到它的请求更多数据的接口,也能请求下载到数据,但是是json格式的,相当于是能取到列表页数据的,这种场景还是比较多的,怎么能通过框架哪个中间件接口能嵌入进去继续爬取呢?目前我看到的是通过addUrl可以提前告诉框架所有详情页的url这种方式