Partitions with nested directories return zero rows

parquet4s version 2.18.0

I got 3 parquet files part-0000, part-0001, part-0002 inside directory on a S3 bucket.

- multipart_parquet
   - a1
     - part-0000.snappy.parquet
     - part-0001.snappy.parquet
     - part-0002.snappy.parquet

With this url s3a://parquet-driver-spec/multipart_parquet/a1 parquet4s read partitions and returns all rows.

But if files are in this structure

- multipart_parquet
   - a1
     - b1
       - part-0000.snappy.parquet
     - b2
       - part-0001.snappy.parquet
       - part-0002.snappy.parquet

parquet4s returns 0 rows

code:

val hadoopConfig = { // simplified for issue
    "fs.s3a.impl.disable.cache", "true"
    "fs.s3a.path.style.access", "true"
    other settings like secrets and url
}
ParquetReader
        .projectedGeneric(querySchema)
        .options(Options(hadoopConf = hadoopConfig))
        .read(Path("s3a://parquet-driver-spec/multipart_parquet/a1"))

mjakubowski84 / parquet4s

Partitions with nested directories return zero rows #352