alibaba / DataX

DataX是阿里云DataWorks数据集成的开源版本。
Other
15.88k stars 5.42k forks source link

DataX最新版本v202309,新增HdfsReader支持parquet文件格式的问题 #2010

Open 834425560 opened 10 months ago

834425560 commented 10 months ago

hive版本 : hive3 hdfs版本 : 3.1.5 场景 : 使用hive建表语句在建表时指定文件存储格式为parquet,压缩格式为snappy; ds调度上新建任务,datax节点下配置文件中设置参数 "fileType": "PARQUET",运行任务提示以下错误,查阅datax的使用文档也并未找到新版本的使用说明以及报错处理 报错内容 :文件类型与用户配置的fileType类型不一致,请确认您配置的目录下面所有文件的类型均为[PARQUET] 有没有遇到相同问题的大佬,求助!

FuYouJ commented 10 months ago

你自己编译一下新版本的代码

834425560 commented 10 months ago

你自己编译一下新版本的代码

这边是已经编译更新过了,然后重试的

Windber commented 10 months ago

我也是遇到了问题,编译v202309版本,使用hdfsreader显示仅支持4种格式,没有parquet。。

FuYouJ commented 10 months ago

你们是下载的压缩包来运行的 还是下载的源码自己打包来运行的 最新的合并就是解决了这个问题。 如果还是不行 就照着这个PR改改代码 https://github.com/alibaba/DataX/pull/1955

834425560 commented 10 months ago

是需要自己编译最新的代码吗,之前都是直接下载的包更新的

FuYouJ commented 10 months ago

是需要自己编译最新的代码吗,之前都是直接下载的包更新的

自己编译

hhw3KevinHou commented 7 months ago

是需要自己编译最新的代码吗,之前都是直接下载的包更新的

自己编译

编译个啥,master都编译不过, Could not resolve dependencies for project com.alibaba.datax:hdfsreader:jar:0.0.1-SNAPSHOT: The following artifacts could not be resolved: com.aliyun.oss:hadoop-aliyun:jar:2.7.2, org.apache.parquet:parquet-format:jar:2.3.0: Could not find artifact com.aliyun.oss:hadoop-aliyun:jar:2.7.2 in central (https://maven.aliyun.com/reposi tory/public/) -> [Help 1]

org.apache.parquet:parquet-format:jar:2.3.0 都废了找不到了,还在引用。你自己不试试编译吗? com.aliyun.oss:hadoop-aliyun:jar:2.7.2 最新都3.3.6了,还用这么老的包。间接引用的包早就废了。 要么就阿里云maven留的全一点,自己引用的包自己都没有。