cloudnativecube / octopus

14 stars 2 forks source link

waterdrop clickhouse sink插件待优化点汇总 #53

Closed mxzlxy closed 3 years ago

mxzlxy commented 3 years ago

总结使用过程中发现的待优化问题: 1.clickhouse jdbc导数效率较低,业务场景涉及到数据量一般为T级,百列数据单个task写入效率约为20min 200m/10000000; 2.单个task导入失败,重试导致clickhouse端数据量部分重复,数据校验失败临时表不会move到目标表; 3.move partition操作出现个别失败现象,抛异常后任务终止,需要修改异常捕获处理逻辑; 4.jdbc执行比较耗时的操作如drop大表或者move比较大的数据时,抛159异常,read time out,通过waterdrop配置文件修改socket_timeout等参数,无明显效果

mxzlxy commented 3 years ago

优化进度更新: 1.尝试直接读取hdfs方案,超神军神进行中; 2.待决; 3.添加retry逻辑,使用配置文件中的retry参数,忽略时默认值为3; 4.服务端在user配置里修改http_send_timeout,http_receive_timeout相关配置(与socket_timeout保持一致),以及检查max_execution_time配置,待进一步验证。