datavane / tis

Support agile DataOps Based on Flink, DataX and Flink-CDC, Chunjun with Web-UI
https://tis.pub
Apache License 2.0
1.04k stars 221 forks source link

Postgresq同步到clickhoue的相关问题 #377

Closed baisui1981 closed 4 weeks ago

baisui1981 commented 1 month ago

问题

  1. TIS 全量复制完一个表,怎么无缝转CDC增量复制。 还是说只能:配置完增量,使用initial开始模式,在线流复制。
  2. 源端表结构变化,CDC能自动同步到目标库吗。

回答

  1. 对于数据的全量批同步和实时增量之间的无缝切换,方法有很多
    1. 在TIS执行基于DataX全量构建之前,先将实时增量管道开启(有个前提就是需要保证目标端支持upset操作),使用latest位点模式即可
    2. 如果源数据端是使用MySQL的,因为他是支持时间位点的策略,基于DataX的批量同步开启的时间点用户记录下来,等到执行结束之后,开启增量通道可以将该时间戳作为增量消费的位点。
    3. 不使用TIS的基于DataX的批量同步模式,直接使用 Flink-cdc的initial 数据同步策略,内部有全量同步和增量同步两个阶段,Flink-CDC会自己保证无缝切换
  2. 查了Flink-CDC的文档他是支持DDL 变更事件的监听的,只不过现在TIS内还没有适配这部分功能,后期版本会加的