crawlab-team / crawlab

Distributed web crawler admin platform for spiders management regardless of languages and frameworks. 分布式爬虫管理平台,支持任何语言和框架
https://www.crawlab.cn
BSD 3-Clause "New" or "Revised" License
11.37k stars 1.79k forks source link

希望能给一个java爬虫的demo,或者指点下思路 #1335

Open boheastill opened 1 year ago

boheastill commented 1 year ago

我们小组准备采用Crawlab作为爬虫服务平台,用java语言,目前主要的困扰是没有java相关的demo

我按官方教程,用python实现了一个爬虫并得到了数据。

最关注的是 1.java是直接上传源码,还是上传编译后的clsss文件,还是应该上传tar包? 2.新建脚本时候,执行命令是否应该写“java -jar xx.jar” 3.爬虫我们需要三个阶段存数据,分别存原始数据,清洗后数据,与最终数据,想请问这些都是可以在爬虫内部,调用相关的api实现的吗。

另外请问可以要一下您的邮箱吗?我的企业邮箱:shangbaohua@comein.cn。

以上,万分感谢!!!!

tikazyq commented 1 year ago

java目前确实没有比较好的demo,您可以加我微信tikazyq1进一步沟通

zhangzhenqiqi commented 11 months ago

请问您有实现Java爬虫的部署吗,我最近也遇到了这个问题想要请教下

boheastill commented 2 months ago

有的,就正常打一个jar包 ,然后本来在cmd输入的java -jar,改为在配置爬虫时候,页面输入这个命令即可,很简单的,可以联系我284420441@qq.com或者作者