alibaba / DataX

DataX是阿里云DataWorks数据集成的开源版本。
Other
15.96k stars 5.44k forks source link

为什么rdbms的单表读split方式是channel数量乘以5? #658

Open CHNnoodle opened 4 years ago

CHNnoodle commented 4 years ago

我在优化datax抽取mysql数据的时候,并不能特别的理解task的数量 如下是 ReaderSplitUtil的切分实现,为什么这里是乘以5,5是经验值吗?还是有什么特殊的意义?

eachTableShouldSplittedNumber = eachTableShouldSplittedNumber * 5;

cclovezbf commented 3 years ago

如果是oracle,这个值是后面取样用的。应该是经验值。比如100w数据 你写10个channel 这里取样10个有点太少了,取50个差不多了