platonai / exotic-amazon

A complete solution to crawl amazon at scale completely and accurately.
143 stars 46 forks source link

单机每天能处理多少页面请求,需要做关键字下asin采集,单机内存32G,日采集能达到100万级别吗? #27

Open swlcyx opened 1 year ago

swlcyx commented 1 year ago

请问单机每天能处理多少页面请求,需要做关键字下asin采集,单机内存32G,日采集能达到100万级别吗

swlcyx commented 1 year ago

🚚 Fetched 203 pages in 1h14m(0.05 pages/s) successfully using 10 proxies | content: 233.44 MiB, 53.84 KiB/s, 1.15 MiB/p

这是我给它10G内存,在prod环境下开启2个浏览器8个tab的结果,感觉不是特别快,一个小时才203pages

platonai commented 1 year ago

使用浏览器模式,对于典型网站譬如 amazon.com,我们的设计预期是单机10万网页/天,参考项目主页介绍。

更多信息和方案:

性能问题取决于对字段的要求。针对各种不同的性能/质量要求,PulsarRPA 以统一的方式,提供了系统性的解决方案。

  1. 最快是走原始 HTTP 协议,不通过浏览器渲染,这种方法可以达到单机单日百万,仅当采集目标是单一网络资源的时候适用,譬如静态网页、json 文件或者API。

  2. 其次是走浏览器渲染,但是屏蔽 CSS,图片等所有其他资源,并且不产生页面交互,不滚动,不悬浮,不点击,网页打开后很快关闭。

  3. 其次是走浏览器渲染,但是屏蔽 CSS,图片等所有其他资源,产生少量页面交互,少量滚动。

  4. 其次是走浏览器渲染,但是屏蔽 CSS,图片等所有其他资源,产生一定页面交互,一定滚动,一定其他动作,等待目标字段成功出现。

  5. 其次是走浏览器渲染,不屏蔽或者部分屏蔽 CSS,图片等其他资源,产生一定页面交互,一定滚动,一定其他动作,等待目标字段成功出现。

最后,我们需要正确配置系统,来充分利用 CPU 和内存资源。默认配置不是性能优先的,而是用户体验优先的。

值得注意的是,页面级性能和字段级性能不同。在利益攸关的复杂数据需求中,我们往往更需要字段级性能而非页面级性能。譬如,在舆情场景中,一个页面往往只有3个有效字段,而在电商场景中,一个页面包含了100~300个高价值字段。

此外,PulsarRPA 提供了严格的质量控制体系,来确保即使在超大规模情形下,也能够在字段级别,对每一个采集目标进行正确跟踪、评估和校验。

platonai commented 1 year ago

参考教程:PulsarRPA 系列课程 10 - 大规模采集

swlcyx commented 1 year ago

加入-resource全都是503

platonai commented 1 year ago

加入-resource全都是503

很明显如果单一资源模式能解决所有问题,我们就没有必要开发浏览器模式和RPA模式了。

参见:https://www.zhihu.com/answer/2738050570

denvey commented 6 months ago

这个宣传语有点...,要达到这个结果要大量的代理IP,要使用HTTP抓取,这都满足才可能达到百万级,就目前这份代码用了代理IP,在mac 16G内存电脑,采集了5个小时,大概是1000多页,

platonai commented 2 months ago

这个宣传语有点...,要达到这个结果要大量的代理IP,要使用HTTP抓取,这都满足才可能达到百万级,就目前这份代码用了代理IP,在mac 16G内存电脑,采集了5个小时,大概是1000多页,

  1. 大批量数据采集是离不开代理IP的。由于每一个请求都和真人无异,PulsarRPA 已最大限度降低了 IP 使用量。
  2. 使用浏览器模式单机采集百万网页是不现实的,对于典型网站譬如 amazon.com,我们的设计预期是单机10万/天,参考项目主页介绍。
  3. 采集性能和数据需求息息相关,参看上面【性能问题取决于对字段的要求】的回复。
  4. 如您需要每天百万量级网页数据,我们非常乐意提供一切技术支持,您可以加我微信 galaxyeye,非常感谢。