Open qxundream opened 6 months ago
请问datax 支持hive的orc事务表读取吗?
请问datax 支持hive的orc事务表读取吗?
orc是支持的,202309版本说支持了parquet,实际上又没支持,感觉有点奇怪
请问datax 支持hive的orc事务表读取吗?
orc是支持的,202309版本说支持了parquet,实际上又没支持,感觉有点奇怪
https://github.com/alibaba/DataX/blob/master/hdfsreader/doc/hdfsreader.md
HdfsReader提供了读取分布式文件系统数据存储的能力。在底层实现上,HdfsReader获取分布式文件系统上文件的数据,并转换为DataX传输协议传递给Writer。
目前HdfsReader支持的文件格式有textfile(text)、orcfile(orc)、rcfile(rc)、sequence file(seq)和普通逻辑二维表(csv)类型格式的文件,且文件内容存放的必须是一张逻辑意义上的二维表。
HdfsReader需要Jdk1.7及以上版本的支持。
里面好像没说有parquet
请问datax 支持hive的orc事务表读取吗?
orc是支持的,202309版本说支持了parquet,实际上又没支持,感觉有点奇怪
https://github.com/alibaba/DataX/blob/master/hdfsreader/doc/hdfsreader.md
HdfsReader提供了读取分布式文件系统数据存储的能力。在底层实现上,HdfsReader获取分布式文件系统上文件的数据,并转换为DataX传输协议传递给Writer。
目前HdfsReader支持的文件格式有textfile(text)、orcfile(orc)、rcfile(rc)、sequence file(seq)和普通逻辑二维表(csv)类型格式的文件,且文件内容存放的必须是一张逻辑意义上的二维表。
HdfsReader需要Jdk1.7及以上版本的支持。
里面好像没说有parquet
你去看v202309的版本说明吧 ,最后一条:HdfsReader/HdfsWriter 支持parquet读写能力
我下了datax_v202309,设置hdfsreader的 "fileType": "parquet",运行的时候报错: 检查代码发现很多地方实际上没有支持parquet格式,如: com.alibaba.datax.plugin.reader.hdfsreader.DFSUtil#checkHdfsFileType
public boolean checkHdfsFileType(String filepath, String specifiedFileType) {
这里面还是没有支持parquet格式