winway / commentRepo

commenyRepo
0 stars 0 forks source link

Spark-sql生成小文件问题 | winway's blog #15

Open winway opened 2 years ago

winway commented 2 years ago

https://winway.github.io/2022/01/16/spark-small-file/

问题 Spark2.x处理小文件问题的两种方式 问题大数据领域有一个经典的问题——小文件问题。小文件过多不仅会对HDFS NameNode的内存造成压力,还会导致数据处理过程中因为任务数量不合理,导致资源浪费,影响效率。在使用spark-sql处理数据时,也会遇到这个问题。 Spark2.x处理小文件问题的两种方式 使用hint通过在sql中指定COALESCE(n) hint,决定最终产