platonai / PulsarRPA

Automate webpages at scale, scrape web data completely and accurately with high performance, distributed AI-RPA.
Apache License 2.0
778 stars 118 forks source link

如何使用headless chrome进行采集? #25

Open Vickzhang opened 1 year ago

Vickzhang commented 1 year ago

疑问:

谢谢。

platonai commented 1 year ago

支持 linux 服务器版进行部署采集。

浏览器安装:

git clone https://github.com/platonai/pulsar.git
cd pulsar && bin/build-run.sh

浏览器设置:

用 BrowserSettings 设置,譬如:

BrowserSettings.privacy(3).maxTabs(10).headless()

这段代码告诉系统,

  1. 同时启动3套隐私独立的浏览器,每个浏览器互不干扰
  2. 每个浏览器最大同时打开10个Tab
  3. 使用无头模式

中文教程 代码示例

ScalaFirst commented 1 year ago

@platonai 无头模式爬取 www.temu.com 的数据失败,非无头模式才能访问。请问是否会被检测出无头模式?有没有类似selenium 给谷歌浏览器添加 excludeSwitches 参数的方式来规避检测?