Open swlcyx opened 1 year ago
🚚 Fetched 203 pages in 1h14m(0.05 pages/s) successfully using 10 proxies | content: 233.44 MiB, 53.84 KiB/s, 1.15 MiB/p
这是我给它10G内存,在prod环境下开启2个浏览器8个tab的结果,感觉不是特别快,一个小时才203pages
使用浏览器模式,对于典型网站譬如 amazon.com,我们的设计预期是单机10万网页/天,参考项目主页介绍。
更多信息和方案:
性能问题取决于对字段的要求。针对各种不同的性能/质量要求,PulsarRPA 以统一的方式,提供了系统性的解决方案。
最快是走原始 HTTP 协议,不通过浏览器渲染,这种方法可以达到单机单日百万,仅当采集目标是单一网络资源的时候适用,譬如静态网页、json 文件或者API。
其次是走浏览器渲染,但是屏蔽 CSS,图片等所有其他资源,并且不产生页面交互,不滚动,不悬浮,不点击,网页打开后很快关闭。
其次是走浏览器渲染,但是屏蔽 CSS,图片等所有其他资源,产生少量页面交互,少量滚动。
其次是走浏览器渲染,但是屏蔽 CSS,图片等所有其他资源,产生一定页面交互,一定滚动,一定其他动作,等待目标字段成功出现。
其次是走浏览器渲染,不屏蔽或者部分屏蔽 CSS,图片等其他资源,产生一定页面交互,一定滚动,一定其他动作,等待目标字段成功出现。
最后,我们需要正确配置系统,来充分利用 CPU 和内存资源。默认配置不是性能优先的,而是用户体验优先的。
值得注意的是,页面级性能和字段级性能不同。在利益攸关的复杂数据需求中,我们往往更需要字段级性能而非页面级性能。譬如,在舆情场景中,一个页面往往只有3个有效字段,而在电商场景中,一个页面包含了100~300个高价值字段。
此外,PulsarRPA 提供了严格的质量控制体系,来确保即使在超大规模情形下,也能够在字段级别,对每一个采集目标进行正确跟踪、评估和校验。
加入-resource全都是503
加入-resource全都是503
很明显如果单一资源模式能解决所有问题,我们就没有必要开发浏览器模式和RPA模式了。
这个宣传语有点...,要达到这个结果要大量的代理IP,要使用HTTP抓取,这都满足才可能达到百万级,就目前这份代码用了代理IP,在mac 16G内存电脑,采集了5个小时,大概是1000多页,
这个宣传语有点...,要达到这个结果要大量的代理IP,要使用HTTP抓取,这都满足才可能达到百万级,就目前这份代码用了代理IP,在mac 16G内存电脑,采集了5个小时,大概是1000多页,
请问单机每天能处理多少页面请求,需要做关键字下asin采集,单机内存32G,日采集能达到100万级别吗