WeBankFinTech / WeDataSphere

WeDataSphere is a financial grade, one-stop big data platform suite.
658 stars 161 forks source link

2023年第一期有奖悬赏需求说明 #39

Open Ritakang0451 opened 1 year ago

Ritakang0451 commented 1 year ago

一、 需求描述

  1. WeDataSphere各开源组件版本要求如下:
组件名 Apache Linkis DataSphere Studio Schedulis Qualitis Exchangis Visualis Streamis MYSQL JDK
版本号 1.3.1 1.1.1 0.7.1 0.9.2 1.0.0 1.0.0 0.2.0 5.1.49 1.8
  1. 底层计算存储引擎的版本要求如下,每个版本的适配,只接受一个Docker镜像成品:

社区常用版本如下,每人可认领一个版本:

a). CDH5.12.1 版本

组件名 Hadoop Hive Spark Flink Sqoop Trino
版本号 2.6.0-cdh5.12.1 1.1.0-cdh5.12.1 2.4.3 1.12.4 1.4.6 371

b). CDH6.3.2 版本

组件名 Hadoop Hive Spark Flink Sqoop Trino
版本号 3.0.0-cdh6.3.2 2.1.1-cdh6.3.2 3.0.0 1.12.4 1.4.6 371
  1. 编译规范

请参照 Linkis 版本适配 对 Apache Linkis 进行编译,其他组件无需编译,可直接使用官方安装包。

  1. 组件部署规范

● 安装部署目录规范

├── wedatasphere --根目录

│ ├── sbin --wedatasphere全家桶一键启动和一键停止的脚本目录

│ │ ├── start-all.sh --wedatasphere全家桶一键启动脚本

│ │ ├── stop-all.sh --wedatasphere全家桶一键停止脚本

│ │ ├── wedatasphere-env.sh --wedatasphere全家桶环境变量配置脚本

│ ├── install --wedatasphere各组件安装包的存放目录

│ │ ├── --LinkisInstall Linkis安装包根目录

│ │ ├── ……

│ ├── config --wedatasphere各组件配置文件的存放目录

│ │ ├── linkis-config --Linkis 配置文件根目录

│ │ ├── ……

│ ├── logs --wedatasphere各组件日志文件的存放目录

│ │ ├── linkis -- Linkis日志文件根目录

│ │ ├── ……

● 环境变量规范

wedatasphere-env.sh 可支持用户配置 Hadoop、Hive、Spark、Flink、Sqoop、Trino等引擎的环境变量,具体如下:

HADOOP_CONF_DIR=
HADOOP_HOME=
YARN_RESTFUL_URL=
HIVE_CONF_DIR=
HIVE_HOME=
HIVE_META_URL=
HIVE_META_USER=
HIVE_META_PASSWORD=
SPARK_CONF_DIR=
SPARK_HOME=
FLINK_HOME=
FLINK_CONF_DIR=
FLINK_LIB_DIR=
SQOOP_HOME=
SQOOP_CONF_DIR=
HCAT_HOME=

● 文档规范

文档尽量以图做说明,少用大段文字。

文档种类要求如下:

文档名称 安装部署文档 Demo使用文档 常见问题文档 升级指南 开发文档
文档内容 用于指导用户安装部署WeDataSphere全家桶 指导用户如何使用全家桶已有的Demo 安装过程中,可能出现的常见问题 指导用户如何只升级或替换WDS的某个组件 1. 给出目录层级结构解释
2. 给出启动逻辑
3. 如何新增一个全新的组件

● Demo规范

i) 官方将提供可导入的 DSS Demo项目,请在打镜像包之前,将Demo导入并保证Demo可正常执行。

ii) 官方将提供Scriptis Demo脚本,请在打镜像包之前,将Demo 脚本导入并保证可正常执行。

iii) 官方将提供 Streamis Demo 流式应用,请在打镜像包之前,将Demo 流式应用导入并保证可正常执行。

● Docker容器制作规范

i) 请尽量保证Docker容器包的总大小不超过12G;

ii) 请将 /wedatasphere 整个全家桶目录制作成一个容器镜像;

iii) 各组件配置的文件路径请使用相对路径,确保各组件可正常使用;

iv) 由于Linkis依赖底层Hadoop、Hive、Spark等组件,请注意提供Hadoop、Hive、Spark等底层计算存储引擎的配置文件的挂载规范和环境变量配置规范。

二、验收标准

  1. 文档齐全且质量高。

  2. 可按照安装部署文档,在30分钟内完成镜像的部署、启动和Demo的基本使用。

三、整体流程

1、和社区工作人员确认任务、接受任务;

2、社区工作人员在WeDataSphere项目,同步创建新的branch,并创建代码提交目录;

3、社区伙伴完成镜像的制作和验证后,提 PR,上传相关源代码和文档;

4、社区工作人员验证镜像包,验证无误后,合并 PR;

5、正式发布镜像包,发放奖励,进行社区宣传等。

四、时间规划

2月15日-2月22日 认领及需求沟通阶段 2月22日-3月08日 开发阶段 3月08日-3月22日 测试验收阶段

FourSpaces commented 1 year ago

我想尝试一下 CDH6.3.2 版本

xiaohunlt commented 1 year ago

CDH6.3.2,6个引擎,前2个没问题,后4个尝试挑战

Ritakang0451 commented 1 year ago

CDH6.3.2,6个引擎,前2个没问题,后4个尝试挑战 你好,可以加微信沟通~

utopianet commented 1 year ago

我想尝试一下CDH5.16.1版本

wushengyeyouya commented 1 year ago

20230302【会议纪要】 参与者:张华金、程伟、李文、康悦、尹强 主持人:尹强 议题结论:

  1. 在dockerfile平级目录创建package目录,用于存放用户放置或程序自动下载的各个组件安装包
  2. 在dockerfile平级目录创建update_sql目录,用于存放某个组件的升级.sql文件
  3. 在安装镜像时,如果扫描到package目录存在安装包,则自动替换相关组件的lib目录
  4. 在安装镜像时,如果扫描到update_sql目录存在.sql文件,则在mysql启动后自动执行相关的.sql文件
  5. update_sql存在两类SQL,一类是IP替换所必须的sql文件;另一类是某个组件升级时需执行的.sql文件
  6. DSS Web存在中文目录名,需要改为英文目录,否则无法正常解压
xingyx commented 1 year ago

您的邮件已经顺利到达我的邮箱中了~  谢谢您的邮件