单机每天能处理多少页面请求，需要做关键字下asin采集，单机内存32G，日采集能达到100万级别吗？

swlcyx commented 1 year ago

请问单机每天能处理多少页面请求，需要做关键字下asin采集，单机内存32G，日采集能达到100万级别吗

swlcyx commented 1 year ago

🚚 Fetched 203 pages in 1h14m(0.05 pages/s) successfully using 10 proxies | content: 233.44 MiB, 53.84 KiB/s, 1.15 MiB/p

这是我给它10G内存，在prod环境下开启2个浏览器8个tab的结果，感觉不是特别快，一个小时才203pages

platonai commented 1 year ago

使用浏览器模式，对于典型网站譬如 amazon.com，我们的设计预期是单机10万网页/天，参考项目主页介绍。

更多信息和方案：

性能问题取决于对字段的要求。针对各种不同的性能/质量要求，PulsarRPA 以统一的方式，提供了系统性的解决方案。

最后，我们需要正确配置系统，来充分利用 CPU 和内存资源。默认配置不是性能优先的，而是用户体验优先的。

值得注意的是，页面级性能和字段级性能不同。在利益攸关的复杂数据需求中，我们往往更需要字段级性能而非页面级性能。譬如，在舆情场景中，一个页面往往只有3个有效字段，而在电商场景中，一个页面包含了100~300个高价值字段。

此外，PulsarRPA 提供了严格的质量控制体系，来确保即使在超大规模情形下，也能够在字段级别，对每一个采集目标进行正确跟踪、评估和校验。

platonai commented 1 year ago

swlcyx commented 1 year ago

加入-resource全都是503

platonai commented 1 year ago

加入-resource全都是503

很明显如果单一资源模式能解决所有问题，我们就没有必要开发浏览器模式和RPA模式了。

denvey commented 6 months ago

这个宣传语有点...，要达到这个结果要大量的代理IP，要使用HTTP抓取，这都满足才可能达到百万级，就目前这份代码用了代理IP，在mac 16G内存电脑，采集了5个小时，大概是1000多页，

platonai commented 2 months ago

这个宣传语有点...，要达到这个结果要大量的代理IP，要使用HTTP抓取，这都满足才可能达到百万级，就目前这份代码用了代理IP，在mac 16G内存电脑，采集了5个小时，大概是1000多页，

platonai / exotic-amazon