platonai / PulsarRPA

Automate webpages at scale, scrape web data completely and accurately with high performance, distributed AI-RPA.
Apache License 2.0
778 stars 118 forks source link

如何人工登录,不自动登录,人工登录后,系统再进行采集动作? #51

Open inprise1980 opened 1 year ago

inprise1980 commented 1 year ago

看例子有一个TaobaoLoginHandler可以实现自动登录,但是采用这种方式经常会被网站反爬识别到,需要多加一个验证码,是否可以实现 不自动登录,由人工登录后,系统再进行采集动作?如何监听人工登录的状态?谢谢。

galaxyeye commented 11 months ago

人工登录的方法是:

  1. 删除 ~/.pulsar/browser
  2. 运行OpenPrototypeChrome.kt
  3. 人工访问目标网站,多浏览几个网页,制造一个真实浏览现场
  4. 之后所有运行都会使用该浏览现场

如果你的版本没有 OpenPrototypeChrome.kt, 那么把自己日常使用的浏览器环境拷贝一份到~/.pulsar下相应子目录即可,拷贝完后, ~/.pulsar/browser/chrome/prototype/google-chrome 下应该有以下文件:

PS C:\Users\pereg\.pulsar\browser\chrome\prototype\google-chrome> ls

    Directory: C:\Users\pereg\.pulsar\browser\chrome\prototype\google-chrome

Mode                 LastWriteTime         Length Name
----                 -------------         ------ ----
d----           2023/11/5    17:32                AutofillStates
d----          2023/12/14    16:23                BrowserMetrics
d----           2023/11/5    18:04                CertificateRevocation
d----           2023/12/4    22:36                component_crx_cache
d----          2023/10/27     9:43                Crashpad
d----           2023/11/1    16:22                Crowd Deny
d----          2023/12/14    16:25                Default
d----           2023/11/1    16:38                extensions_crx_cache
d----           2023/11/1    13:20                FileTypePolicies
d----           2023/11/5    17:32                FirstPartySetsPreloaded
d----          2023/10/27     9:43                GraphiteDawnCache
d----           2023/11/5    18:04                GrShaderCache
d----           2023/11/5    17:19                hyphen-data
d----           2023/11/1    16:41                Local Traces
d----          2023/10/27     9:43                MediaFoundationWidevineCdm
d----          2023/10/27     9:43                MEIPreload
d----          2023/10/27     9:43                OnDeviceHeadSuggestModel
d----           2023/12/6     9:51                OptimizationGuidePredictionModels
d----           2023/12/6     9:51                OptimizationHints
d----           2023/11/1    13:24                OriginTrials
d----           2023/12/6     9:51                PKIMetadata
d----          2023/10/31    17:34                pnacl
d----           2023/11/1    16:41                PnaclTranslationCache
d----           2023/11/5    17:32                PrivacySandboxAttestationsPreloaded
d----          2023/10/27     9:43                RecoveryImproved
d----           2023/11/1    16:38                Safe Browsing
d----           2023/12/6     9:51                SafetyTips
d----           2023/11/5    16:52                segmentation_platform
d----          2023/10/27     9:43                ShaderCache
d----          2023/10/31    19:48                SSLErrorAssistant
d----          2023/10/27    12:06                Subresource Filter
d----           2023/11/1    13:21                ThirdPartyModuleList64
d----           2023/11/5    16:52                TpcdMetadata
d----          2023/10/31    18:55                TrustTokenKeyCommitments
d----           2023/11/5    18:06                Webstore Downloads
d----          2023/10/27     9:43                WidevineCdm
d----           2023/11/1    16:22                ZxcvbnData
-a---          2023/12/14    16:23             59 DevToolsActivePort
-a---           2023/11/5    18:05         451968 en-US-10-1.bdic
-a---           2023/11/1    16:37              0 First Run
-a---           2023/11/5    18:08          57344 first_party_sets.db
-a---           2023/11/5    18:08              0 first_party_sets.db-journal
-a---           2023/12/4    22:33            106 Last Browser
-a---          2023/12/14    16:23             13 Last Version
-a---          2023/12/14    16:24          77401 Local State
-a---          2023/12/14    16:23             87 Variations