alibaba / DataX

DataX是阿里云DataWorks数据集成的开源版本。
Other
15.48k stars 5.33k forks source link

使用datax将hdfs的数据拉取到mysql,有数据量翻倍问题 #1507

Open luyingwei1995 opened 1 year ago

luyingwei1995 commented 1 year ago

这是我的配置文件

{ "job": { "setting": { "speed": { "channel": "1" } }, "content": [ { "reader": { "name": "hdfsreader", "parameter": { "path": "/user/hive/warehouse/ads_acbi.db/ads_refund_m/data_day=${data_day}", "defaultFS": "hdfs://${big_data}", "column": [ "*" ], "fileType": "orc", "encoding": "UTF-8", "fieldDelimiter": "\u0001" } }, "writer": { "name": "mysqlwriter", "parameter": { "column": [ "*" ], "connection": [ { "jdbcUrl": "jdbc:mysql://${mysql-ip}:${mysql-port}/${mysql-db}", "table": [ "ads_refund_m_t" ] } ], "preSql": [ "delete from ads_refund_m_t" ], "password": "${mysql-pass}", "username": "${mysql-user}", "writeMode": "insert" } } } ] } }

数据到了mysql数据量有出现翻倍的现象,出现了翻两倍,翻4倍,翻5倍的现象,可以看图片连接,请问是什么原因,怎么解决? 企业微信截图_16630386331207

luyingwei1995 commented 1 year ago

DATAX从HDFS将数据拉取到MySQL数据量翻倍记录.md 很迷,看我的记录,突然又变好了

ZaneZ7 commented 1 year ago

单机版导致的。每次执行完一个任务,重新启动DataX就不会翻倍了,不执行完不进行下个任务。原因是他有些数据会缓存在内存中,不重启就一直叠加。

请问怎么重启datax,它不是不需要启动服务端之类的吗

luyingwei1995 commented 1 year ago

十分感谢,现在这个问题已经解决了,很抱歉这么久才回复。

@.***

@.*** |

---- 回复的原邮件 ---- | 发件人 | @.> | | 日期 | 2022年10月19日 14:19 | | 收件人 | @.> | | 抄送至 | @.>@.> | | 主题 | Re: [alibaba/DataX] 使用datax将hdfs的数据拉取到mysql,有数据量翻倍问题 (Issue #1507) |

单机版导致的。每次执行完一个任务,重新启动DataX就不会翻倍了,不执行完不进行下个任务。原因是他有些数据会缓存在内存中,不重启就一直叠加。

请问怎么重启datax,它不是不需要启动服务端之类的吗

— Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

kf-hanshuang commented 1 year ago

我也遇到了同样的问题,数据量100w的时候正常,但800万的时候数据量就翻倍了,想问下怎么解决的?

十分感谢,现在这个问题已经解决了,很抱歉这么久才回复。 | | @. | | @. | ---- 回复的原邮件 ---- | 发件人 | @.> | | 日期 | 2022年10月19日 14:19 | | 收件人 | @.> | | 抄送至 | @.>@.> | | 主题 | Re: [alibaba/DataX] 使用datax将hdfs的数据拉取到mysql,有数据量翻倍问题 (Issue #1507) | 单机版导致的。每次执行完一个任务,重新启动DataX就不会翻倍了,不执行完不进行下个任务。原因是他有些数据会缓存在内存中,不重启就一直叠加。 请问怎么重启datax,它不是不需要启动服务端之类的吗 — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

aikuyun commented 9 months ago

你看过hdfs文件没有?我也遇到了这种情况,发现hdfs的路径下,存在临时文件 .hive-st开头的文件,这是保存的临时结果,没有自动删掉。

datax hdfs reader 读的时候,把这种临时文件也读进来了。