platonai / PulsarRPAPro

PulsarRPA Pro Edition: Empower Your Workflows with AI-Driven Web Data Extraction.
95 stars 26 forks source link

如何爬取动态内容加载的网站信息 #24

Open Henderson11 opened 3 months ago

Henderson11 commented 3 months ago

PulsarRPAPro可以用来抓取具有动态加载的网站内容吗?比如ieee等检索论文的网站,输入标题后需要点击一些其他的按钮后才能显示更多(比如摘要字段的hsow more按钮),对于这一类不是静态网站的内容如何进行目标信息爬取?

galaxyeye commented 3 months ago

是的, PulsarRPAPro可以用来抓取具有动态加载的网站内容。

PulsarRPA 是一款高性能、分布式、开源的机器人流程自动化(RPA)框架。它旨在轻松处理大规模的 RPA 任务,为浏览器自动化、理解网页内容和数据提取提供全面的解决方案。它解决了浏览器自动化以及从快速变化且日益复杂的网站中提取准确、全面的网络数据所面临的固有挑战。

此外,还有高级版本可供选择,用于处理更为复杂的任务,如自动收集网络数据、自动更新、自动提取、自动清洗、自动标注和自动注释。

LvCheng @.***> 于2024年8月11日周日 17:05写道:

PulsarRPAPro可以用来抓取具有动态加载的网站内容吗?比如ieee等检索论文的网站,输入标题后需要点击一些其他的按钮后才能显示更多(比如摘要字段的hsow more按钮),对于这一类不是静态网站的内容如何进行目标信息爬取?

— Reply to this email directly, view it on GitHub https://github.com/platonai/PulsarRPAPro/issues/24, or unsubscribe https://github.com/notifications/unsubscribe-auth/AAM7MSY4YNSNGQQWFKDSP2TZQ4SMZAVCNFSM6AAAAABMKSOGVCVHI2DSMVQWIX3LMV43ASLTON2WKOZSGQ2TSNBZHEZTANY . You are receiving this because you are subscribed to this thread.Message ID: @.***>

-- Platon.AI

张斌

Wechat: galaxyeye Weibo: galaxyeye Email: @., @. Twitter: galaxyeye8 Website: platon.ai