Scale factor and number of files are correlated in TPCDS data generation

We need to create a number of files so that they are greater than /2. By default, it seems to create one file per node. I got the following error when I tried to generate 100GB data.

Generating TPCDS data 13/07/31 18:32:21 INFO datagen.DataGenerator: Starting data generation at: Wed Jul 31 18:32:21 PDT 2013 13/07/31 18:32:21 INFO datagen.DataGenerator: 13/07/31 18:32:21 INFO datagen.DataGenerator: Input Parameters: 13/07/31 18:32:21 INFO datagen.DataGenerator: Scale Factor: 33 13/07/31 18:32:21 INFO datagen.DataGenerator: Number of Files: 16 13/07/31 18:32:21 INFO datagen.DataGenerator: Host List: /home/kunjirm/hadoop-lava/conf/slaves 13/07/31 18:32:21 INFO datagen.DataGenerator: Local Directory: /data/spark/tpcds 13/07/31 18:32:21 INFO datagen.DataGenerator: HDFS Directory: relational_data 13/07/31 18:32:21 INFO datagen.DataGenerator: 13/07/31 18:32:21 INFO datagen.DataGenerator: ERROR: The number of files must be greater than half the scale factor

bigframeteam / BigFrame

Scale factor and number of files are correlated in TPCDS data generation #1