alibaba / DataX

DataX是阿里云DataWorks数据集成的开源版本。
Other
16.02k stars 5.46k forks source link

MongoDBReader关于Job中split的切分问题 #2188

Open lazycancerpatients opened 3 months ago

lazycancerpatients commented 3 months ago

源为mongodb数据库时,使用多并发读取,Job在进行split切分算法时,并没有针对query条件进行数据过滤 而是读取全量数据通过 _id 进行切分,这样在collection中数据量较大时,切分会十分缓慢 真实场景:在源表数据为11亿条(存储空间约为4.5T)时,2channel切分耗时40min,3channel切分耗时90min

不针对query条件做过滤是有什么其它的考量吗