Json parsing failed when i was using the saveAsBigQueryTable

Hi Sam

Please find below the full stack

Warning: Ignoring non-spark config property: SPARK_SQL_AUTH_ADMIN=admin 0 [main] INFO org.apache.spark.SparkContext - Running Spark version 1.6.2 242 [main] WARN org.apache.hadoop.util.NativeCodeLoader - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 404 [main] INFO org.apache.spark.SecurityManager - Changing view acls to: adminmana 404 [main] INFO org.apache.spark.SecurityManager - Changing modify acls to: adminmana 405 [main] INFO org.apache.spark.SecurityManager - SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(adminmana); users with modify permissions: Set(adminmana) 776 [main] INFO org.apache.spark.util.Utils - Successfully started service 'sparkDriver' on port 33851. 1073 [sparkDriverActorSystem-akka.actor.default-dispatcher-5] INFO akka.event.slf4j.Slf4jLogger - Slf4jLogger started 1104 [sparkDriverActorSystem-akka.actor.default-dispatcher-5] INFO Remoting - Starting remoting 1224 [sparkDriverActorSystem-akka.actor.default-dispatcher-5] INFO Remoting - Remoting started; listening on addresses :[akka.tcp:// sparkDriverActorSystem@10.177.116.69:33512] 1228 [main] INFO org.apache.spark.util.Utils - Successfully started service 'sparkDriverActorSystem' on port 33512. 1237 [main] INFO org.apache.spark.SparkEnv - Registering MapOutputTracker 1250 [main] INFO org.apache.spark.SparkEnv - Registering BlockManagerMaster 1260 [main] INFO org.apache.spark.storage.DiskBlockManager - Created local directory at /mydata/Mana_2.3/tmp/blockmgr-f8b8270b-ca86-4119-be30-0a9cd3fbc456 1273 [main] INFO org.apache.spark.storage.MemoryStore - MemoryStore started with capacity 4.1 GB 1315 [main] INFO org.apache.spark.SparkEnv - Registering OutputCommitCoordinator 1422 [main] INFO org.spark-project.jetty.server.Server - jetty-8.y.z-SNAPSHOT 1459 [main] INFO org.spark-project.jetty.server.AbstractConnector - Started SelectChannelConnector@0.0.0.0:8085 1462 [main] INFO org.apache.spark.util.Utils - Successfully started service 'SparkUI' on port 8085. 1464 [main] INFO org.apache.spark.ui.SparkUI - Started SparkUI at http://10.177.116.69:8085 1482 [main] INFO org.apache.spark.HttpFileServer - HTTP File server directory is /mydata/Mana_2.3/tmp/spark-7bb14363-a18e-453c-a00c-3518c171a6ee/httpd-a83d59a5-55c0-4004-94e0-5f7409d187c4 1484 [main] INFO org.apache.spark.HttpServer - Starting HTTP Server 1490 [main] INFO org.spark-project.jetty.server.Server - jetty-8.y.z-SNAPSHOT 1492 [main] INFO org.spark-project.jetty.server.AbstractConnector - Started SocketConnector@0.0.0.0:34847 1493 [main] INFO org.apache.spark.util.Utils - Successfully started service 'HTTP file server' on port 34847. 2166 [main] INFO org.apache.spark.SparkContext - Added JAR file:/home/adminmana/bigquery-1.0-SNAPSHOT-jar-with-dependencies.jar at http://10.177.116.69:34847/jars/bigquery-1.0-SNAPSHOT-jar-with-dependencies.jar with timestamp 1507090421535 2213 [main] INFO org.apache.spark.executor.Executor - Starting executor ID driver on host localhost 2227 [main] INFO org.apache.spark.util.Utils - Successfully started service 'org.apache.spark.network.netty.NettyBlockTransferService' on port 34778. 2227 [main] INFO org.apache.spark.network.netty.NettyBlockTransferService

Server created on 34778 2228 [main] INFO org.apache.spark.storage.BlockManagerMaster - Trying to register BlockManager 2231 [dispatcher-event-loop-10] INFO org.apache.spark.storage.BlockManagerMasterEndpoint - Registering block manager localhost:34778 with 4.1 GB RAM, BlockManagerId(driver, localhost, 34778) 2232 [main] INFO org.apache.spark.storage.BlockManagerMaster - Registered BlockManager 2944 [main] INFO org.apache.spark.scheduler.EventLoggingListener - Logging events to hdfs:// 10.177.116.69:9000/system/spark-history/local-1507090421561.lz4 Configuration: core-default.xml, core-site.xml, mapred-default.xml, mapred-site.xml, yarn-default.xml, yarn-site.xml, hdfs-default.xml, hdfs-site.xml 2975 [main] INFO com.google.cloud.hadoop.io.bigquery.BigQueryConfiguration - Using specified project-id 'publicdata' for input 3012 [main] INFO com.google.cloud.hadoop.fs.gcs.GoogleHadoopFileSystemBase - GHFS version: 1.6.1-hadoop2 3725 [main] INFO org.apache.spark.storage.MemoryStore - Block broadcast_0 stored as values in memory (estimated size 224.6 KB, free 224.6 KB) 3757 [main] INFO org.apache.spark.storage.MemoryStore - Block broadcast_0_piece0 stored as bytes in memory (estimated size 22.2 KB, free 246.9 KB) 3759 [dispatcher-event-loop-12] INFO org.apache.spark.storage.BlockManagerInfo - Added broadcast_0_piece0 in memory on localhost:34778 (size: 22.2 KB, free: 4.1 GB) 3761 [main] INFO org.apache.spark.SparkContext - Created broadcast 0 from newAPIHadoopRDD at App.scala:80 3802 [main] INFO com.google.cloud.hadoop.io.bigquery.BigQueryFactory - Bigquery connector version 0.10.2-hadoop2 3804 [main] INFO com.google.cloud.hadoop.io.bigquery.BigQueryFactory - Creating BigQuery from default credential. 3805 [main] INFO com.google.cloud.hadoop.io.bigquery.BigQueryFactory - Creating BigQuery from given credential. 3806 [main] INFO com.google.cloud.hadoop.io.bigquery.BigQueryConfiguration - Fetching key 'mapred.bq.gcs.bucket' since 'mapred.bq.temp.gcs.path' isn't set explicitly. 3807 [main] INFO com.google.cloud.hadoop.io.bigquery.BigQueryConfiguration - Using working path: 'gs://iipbucket/hadoop/tmp/bigquery/job_201710040013_0000' 5124 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.map.tasks is deprecated. Instead, use mapreduce.job.maps 5125 [main] INFO com.google.cloud.hadoop.io.bigquery.ShardedExportToCloudStorage - Computed '2' shards for sharded BigQuery export. 5125 [main] INFO com.google.cloud.hadoop.io.bigquery.ShardedExportToCloudStorage - Table 'publicdata:samples.shakespeare' to be exported has 164656 rows and 6432064 bytes 5585 [main] INFO com.google.cloud.hadoop.io.bigquery.ShardedExportToCloudStorage - Computed '2' shards for sharded BigQuery export. 5585 [main] INFO com.google.cloud.hadoop.io.bigquery.ShardedExportToCloudStorage - Table 'publicdata:samples.shakespeare' to be exported has 164656 rows and 6432064 bytes 5626 [main] INFO org.apache.spark.SparkContext - Starting job: take at App.scala:93 5643 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Registering RDD 1 (map at App.scala:88) 5644 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Got job 0 (take at App.scala:93) with 1 output partitions 5645 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Final stage: ResultStage 1 (take at App.scala:93) 5645 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Parents of final stage: List(ShuffleMapStage 0) 5646 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Missing parents: List(ShuffleMapStage 0) 5652 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Submitting ShuffleMapStage 0 (MapPartitionsRDD[1] at map at App.scala:88), which has no missing parents 5680 [dag-scheduler-event-loop] INFO org.apache.spark.storage.MemoryStore
Block broadcast_1 stored as values in memory (estimated size 3.2 KB, free 250.0 KB) 5683 [dag-scheduler-event-loop] INFO org.apache.spark.storage.MemoryStore
Block broadcast_1_piece0 stored as bytes in memory (estimated size 2006.0 B, free 252.0 KB) 5684 [dispatcher-event-loop-13] INFO org.apache.spark.storage.BlockManagerInfo - Added broadcast_1_piece0 in memory on localhost:34778 (size: 2006.0 B, free: 4.1 GB) 5685 [dag-scheduler-event-loop] INFO org.apache.spark.SparkContext - Created broadcast 1 from broadcast at DAGScheduler.scala:1006 5689 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Submitting 2 missing tasks from ShuffleMapStage 0 (MapPartitionsRDD[1] at map at App.scala:88) 5690 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.TaskSchedulerImpl - Adding task set 0.0 with 2 tasks 5721 [dispatcher-event-loop-14] INFO org.apache.spark.scheduler.TaskSetManager - Starting task 0.0 in stage 0.0 (TID 0, localhost, partition 0,PROCESS_LOCAL, 2292 bytes) 5723 [dispatcher-event-loop-14] INFO org.apache.spark.scheduler.TaskSetManager - Starting task 1.0 in stage 0.0 (TID 1, localhost, partition 1,PROCESS_LOCAL, 2292 bytes) 5729 [Executor task launch worker-1] INFO org.apache.spark.executor.Executor - Running task 1.0 in stage 0.0 (TID 1) 5729 [Executor task launch worker-0] INFO org.apache.spark.executor.Executor - Running task 0.0 in stage 0.0 (TID 0) 5737 [Executor task launch worker-0] INFO org.apache.spark.executor.Executor - Fetching http://10.177.116.69:34847/jars/bigquery-1.0-SNAPSHOT-jar-with-dependencies.jar with timestamp 1507090421535 5793 [Executor task launch worker-0] INFO org.apache.spark.util.Utils - Fetching http://10.177.116.69:34847/jars/bigquery-1.0-SNAPSHOT-jar-with-dependencies.jar to /mydata/Mana_2.3/tmp/spark-7bb14363-a18e-453c-a00c-3518c171a6ee/userFiles-450ff49b-5795-4b1d-af43-a07e069cda5d/fetchFileTemp8938094116660258769.tmp 6728 [Executor task launch worker-0] INFO org.apache.spark.executor.Executor - Adding file:/mydata/Mana_2.3/tmp/spark-7bb14363-a18e-453c-a00c-3518c171a6ee/userFiles-450ff49b-5795-4b1d-af43-a07e069cda5d/bigquery-1.0-SNAPSHOT-jar-with-dependencies.jar to class loader 6755 [Executor task launch worker-1] INFO org.apache.spark.rdd.NewHadoopRDD - Input split: gs://iipbucket/hadoop/tmp/bigquery/job_201710040013_0000/shard-1/data-.json[82328 estimated records] 6755 [Executor task launch worker-0] INFO org.apache.spark.rdd.NewHadoopRDD - Input split: gs://iipbucket/hadoop/tmp/bigquery/job_201710040013_0000/shard-0/data-.json[82328 estimated records] 6764 [Executor task launch worker-0] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Initializing DynamicFileListRecordReader with split 'InputSplit:: length:82328 locations: [] toString(): gs://iipbucket/hadoop/tmp/bigquery/job_201710040013_0000/shard-0/data-.json[82328 estimated records]', task context 'TaskAttemptContext:: TaskAttemptID:attempt_201710040013_0000_m_000000_0 Status:' 6764 [Executor task launch worker-1] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Initializing DynamicFileListRecordReader with split 'InputSplit:: length:82328 locations: [] toString(): gs://iipbucket/hadoop/tmp/bigquery/job_201710040013_0000/shard-1/data-.json[82328 estimated records]', task context 'TaskAttemptContext:: TaskAttemptID:attempt_201710040013_0000_m_000001_0 Status:' 7639 [Executor task launch worker-0] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Adding new file 'data-000000000000.json' of size 13348468 to knownFileSet. 7639 [Executor task launch worker-0] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Moving to next file 'gs://iipbucket/hadoop/tmp/bigquery/job_201710040013_0000/shard-0/data-000000000000.json' which has 13348468 bytes. Records read so far: 0 12585 [Executor task launch worker-0] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Adding new file 'data-000000000001.json' of size 0 to knownFileSet. 12586 [Executor task launch worker-0] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Moving to next file 'gs://iipbucket/hadoop/tmp/bigquery/job_201710040013_0000/shard-0/data-000000000001.json' which has 0 bytes. Records read so far: 164656 12746 [Executor task launch worker-0] INFO com.google.cloud.hadoop.gcsio.GoogleCloudStorageReadChannel - Got 'range not satisfiable' for reading gs://iipbucket/hadoop/tmp/bigquery/job_201710040013_0000/shard-0/data-000000000001.json at position 0; assuming empty. 12747 [Executor task launch worker-0] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Found end-marker file 'data-000000000001.json' with index 1 12897 [Executor task launch worker-0] INFO org.apache.spark.executor.Executor - Finished task 0.0 in stage 0.0 (TID 0). 2254 bytes result sent to driver 12906 [task-result-getter-0] INFO org.apache.spark.scheduler.TaskSetManager - Finished task 0.0 in stage 0.0 (TID 0) in 7197 ms on localhost (1/2) 17728 [Executor task launch worker-1] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Adding new file 'data-000000000000.json' of size 0 to knownFileSet. 17728 [Executor task launch worker-1] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Moving to next file 'gs://iipbucket/hadoop/tmp/bigquery/job_201710040013_0000/shard-1/data-000000000000.json' which has 0 bytes. Records read so far: 0 17906 [Executor task launch worker-1] INFO com.google.cloud.hadoop.gcsio.GoogleCloudStorageReadChannel - Got 'range not satisfiable' for reading gs://iipbucket/hadoop/tmp/bigquery/job_201710040013_0000/shard-1/data-000000000000.json at position 0; assuming empty. 17907 [Executor task launch worker-1] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Found end-marker file 'data-000000000000.json' with index 0 17909 [Executor task launch worker-1] INFO org.apache.spark.executor.Executor - Finished task 1.0 in stage 0.0 (TID 1). 2309 bytes result sent to driver 17913 [task-result-getter-1] INFO org.apache.spark.scheduler.TaskSetManager - Finished task 1.0 in stage 0.0 (TID 1) in 12190 ms on localhost (2/2) 17914 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - ShuffleMapStage 0 (map at App.scala:88) finished in 12.215 s 17914 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - looking for newly runnable stages 17915 [task-result-getter-1] INFO org.apache.spark.scheduler.TaskSchedulerImpl - Removed TaskSet 0.0, whose tasks have all completed, from pool 17915 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - running: Set() 17916 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - waiting: Set(ResultStage 1) 17916 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - failed: Set() 17918 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Submitting ResultStage 1 (ShuffledRDD[2] at reduceByKey at App.scala:89), which has no missing parents 17924 [dag-scheduler-event-loop] INFO org.apache.spark.storage.MemoryStore - Block broadcast_2 stored as values in memory (estimated size 2.6 KB, free 254.6 KB) 17926 [dag-scheduler-event-loop] INFO org.apache.spark.storage.MemoryStore - Block broadcast_2_piece0 stored as bytes in memory (estimated size 1658.0 B, free 256.2 KB) 17927 [dispatcher-event-loop-19] INFO org.apache.spark.storage.BlockManagerInfo - Added broadcast_2_piece0 in memory on localhost:34778 (size: 1658.0 B, free: 4.1 GB) 17927 [dag-scheduler-event-loop] INFO org.apache.spark.SparkContext - Created broadcast 2 from broadcast at DAGScheduler.scala:1006 17928 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Submitting 1 missing tasks from ResultStage 1 (ShuffledRDD[2] at reduceByKey at App.scala:89) 17928 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.TaskSchedulerImpl - Adding task set 1.0 with 1 tasks 17936 [dispatcher-event-loop-20] INFO org.apache.spark.scheduler.TaskSetManager - Starting task 0.0 in stage 1.0 (TID 2, localhost, partition 0,NODE_LOCAL, 1983 bytes) 17936 [Executor task launch worker-1] INFO org.apache.spark.executor.Executor - Running task 0.0 in stage 1.0 (TID 2) 17952 [Executor task launch worker-1] INFO org.apache.spark.storage.ShuffleBlockFetcherIterator - Getting 1 non-empty blocks out of 2 blocks 17953 [Executor task launch worker-1] INFO org.apache.spark.storage.ShuffleBlockFetcherIterator - Started 0 remote fetches in 4 ms 18009 [dispatcher-event-loop-24] INFO org.apache.spark.storage.BlockManagerInfo - Removed broadcast_1_piece0 on localhost:34778 in memory (size: 2006.0 B, free: 4.1 GB) 18082 [Executor task launch worker-1] INFO org.apache.spark.executor.Executor - Finished task 0.0 in stage 1.0 (TID 2). 4278 bytes result sent to driver 18085 [task-result-getter-2] INFO org.apache.spark.scheduler.TaskSetManager - Finished task 0.0 in stage 1.0 (TID 2) in 153 ms on localhost (1/1) 18086 [task-result-getter-2] INFO org.apache.spark.scheduler.TaskSchedulerImpl - Removed TaskSet 1.0, whose tasks have all completed, from pool 18086 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - ResultStage 1 (take at App.scala:93) finished in 0.155 s 18092 [main] INFO org.apache.spark.scheduler.DAGScheduler - Job 0 finished: take at App.scala:93, took 12.464855 s 18487 [dispatcher-event-loop-28] INFO org.apache.spark.storage.BlockManagerInfo - Removed broadcast_2_piece0 on localhost:34778 in memory (size: 1658.0 B, free: 4.1 GB) 18490 [Spark Context Cleaner] INFO org.apache.spark.ContextCleaner - Cleaned accumulator 2 18490 [Spark Context Cleaner] INFO org.apache.spark.ContextCleaner - Cleaned accumulator 1 18556 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapreduce.inputformat.class is deprecated. Instead, use mapreduce.job.inputformat.class 18556 [main] INFO com.google.cloud.hadoop.io.bigquery.BigQueryConfiguration - Using specified project-id 'bigquery-public-data' for input 18559 [main] INFO org.apache.spark.storage.MemoryStore - Block broadcast_3 stored as values in memory (estimated size 230.6 KB, free 477.4 KB) 18569 [main] INFO org.apache.spark.storage.MemoryStore - Block broadcast_3_piece0 stored as bytes in memory (estimated size 22.5 KB, free 499.9 KB) 18570 [dispatcher-event-loop-29] INFO org.apache.spark.storage.BlockManagerInfo - Added broadcast_3_piece0 in memory on localhost:34778 (size: 22.5 KB, free: 4.1 GB) 18571 [main] INFO org.apache.spark.SparkContext - Created broadcast 3 from newAPIHadoopRDD at package.scala:111 18578 [main] INFO com.google.cloud.hadoop.io.bigquery.BigQueryFactory - Creating BigQuery from default credential. 18580 [main] INFO com.google.cloud.hadoop.io.bigquery.BigQueryFactory - Creating BigQuery from given credential. 18580 [main] INFO com.google.cloud.hadoop.io.bigquery.BigQueryConfiguration - Fetching key 'mapred.bq.gcs.bucket' since 'mapred.bq.temp.gcs.path' isn't set explicitly. 18580 [main] INFO com.google.cloud.hadoop.io.bigquery.BigQueryConfiguration - Using working path: 'gs://iipbucket/hadoop/tmp/bigquery/job_201710040013_0003' 19704 [main] INFO com.google.cloud.hadoop.io.bigquery.ShardedExportToCloudStorage - Computed '2' shards for sharded BigQuery export. 19705 [main] INFO com.google.cloud.hadoop.io.bigquery.ShardedExportToCloudStorage - Table 'bigquery-public-data:samples.shakespeare' to be exported has 164656 rows and 6432064 bytes 19979 [main] INFO com.google.cloud.hadoop.io.bigquery.ShardedExportToCloudStorage - Computed '2' shards for sharded BigQuery export. 19980 [main] INFO com.google.cloud.hadoop.io.bigquery.ShardedExportToCloudStorage - Table 'bigquery-public-data:samples.shakespeare' to be exported has 164656 rows and 6432064 bytes 19985 [main] INFO org.apache.spark.SparkContext - Starting job: first at package.scala:113 19986 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Got job 1 (first at package.scala:113) with 1 output partitions 19986 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Final stage: ResultStage 2 (first at package.scala:113) 19986 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Parents of final stage: List() 19986 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Missing parents: List() 19987 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Submitting ResultStage 2 (MapPartitionsRDD[5] at map at package.scala:113), which has no missing parents 19989 [dag-scheduler-event-loop] INFO org.apache.spark.storage.MemoryStore - Block broadcast_4 stored as values in memory (estimated size 2.8 KB, free 502.7 KB) 19990 [dag-scheduler-event-loop] INFO org.apache.spark.storage.MemoryStore - Block broadcast_4_piece0 stored as bytes in memory (estimated size 1751.0 B, free 504.4 KB) 19992 [dispatcher-event-loop-30] INFO org.apache.spark.storage.BlockManagerInfo - Added broadcast_4_piece0 in memory on localhost:34778 (size: 1751.0 B, free: 4.1 GB) 19992 [dag-scheduler-event-loop] INFO org.apache.spark.SparkContext - Created broadcast 4 from broadcast at DAGScheduler.scala:1006 19992 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Submitting 1 missing tasks from ResultStage 2 (MapPartitionsRDD[5] at map at package.scala:113) 19993 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.TaskSchedulerImpl - Adding task set 2.0 with 1 tasks 19994 [dispatcher-event-loop-31] INFO org.apache.spark.scheduler.TaskSetManager - Starting task 0.0 in stage 2.0 (TID 3, localhost, partition 0,PROCESS_LOCAL, 2303 bytes) 19994 [Executor task launch worker-1] INFO org.apache.spark.executor.Executor - Running task 0.0 in stage 2.0 (TID 3) 19996 [Executor task launch worker-1] INFO org.apache.spark.rdd.NewHadoopRDD - Input split: gs://iipbucket/hadoop/tmp/bigquery/job_201710040013_0003/shard-0/data-.avro[82328 estimated records] 19996 [Executor task launch worker-1] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Initializing DynamicFileListRecordReader with split 'InputSplit:: length:82328 locations: [] toString(): gs://iipbucket/hadoop/tmp/bigquery/job_201710040013_0003/shard-0/data-.avro[82328 estimated records]', task context 'TaskAttemptContext:: TaskAttemptID:attempt_201710040013_0003_m_000000_0 Status:' 20928 [Executor task launch worker-1] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Adding new file 'data-000000000000.avro' of size 3964994 to knownFileSet. 20929 [Executor task launch worker-1] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Moving to next file 'gs://iipbucket/hadoop/tmp/bigquery/job_201710040013_0003/shard-0/data-000000000000.avro' which has 3964994 bytes. Records read so far: 0 21707 [Executor task launch worker-1] WARN com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Got non-null delegateReader during close(); possible premature close() call. 21709 [Executor task launch worker-1] INFO org.apache.spark.executor.Executor - Finished task 0.0 in stage 2.0 (TID 3). 2283 bytes result sent to driver 21710 [task-result-getter-3] INFO org.apache.spark.scheduler.TaskSetManager - Finished task 0.0 in stage 2.0 (TID 3) in 1717 ms on localhost (1/1) 21711 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - ResultStage 2 (first at package.scala:113) finished in 1.718 s 21711 [task-result-getter-3] INFO org.apache.spark.scheduler.TaskSchedulerImpl - Removed TaskSet 2.0, whose tasks have all completed, from pool 21711 [main] INFO org.apache.spark.scheduler.DAGScheduler - Job 1 finished: first at package.scala:113, took 1.726375 s 22377 [main] INFO com.spotify.spark.bigquery.BigQueryClient - Executing query SELECT word, word_count FROM [bigquery-public-data:samples.shakespeare] 22666 [main] INFO com.spotify.spark.bigquery.BigQueryClient - Staging dataset pure-respect-180709:spark_bigquery_staging_us already exists 22666 [main] INFO com.spotify.spark.bigquery.BigQueryClient - Destination table: {datasetId=spark_bigquery_staging_us, projectId=pure-respect-180709, tableId=spark_bigquery_20171004041401_1420172520} 159641 [main] INFO com.google.cloud.hadoop.io.bigquery.BigQueryConfiguration - Using specified project-id 'pure-respect-180709' for input 159643 [main] INFO org.apache.spark.storage.MemoryStore - Block broadcast_5 stored as values in memory (estimated size 230.6 KB, free 735.0 KB) 159653 [main] INFO org.apache.spark.storage.MemoryStore - Block broadcast_5_piece0 stored as bytes in memory (estimated size 22.5 KB, free 757.5 KB) 159654 [dispatcher-event-loop-0] INFO org.apache.spark.storage.BlockManagerInfo - Added broadcast_5_piece0 in memory on localhost:34778 (size: 22.5 KB, free: 4.1 GB) 159654 [main] INFO org.apache.spark.SparkContext - Created broadcast 5 from newAPIHadoopRDD at package.scala:111 159657 [main] INFO com.google.cloud.hadoop.io.bigquery.BigQueryFactory - Creating BigQuery from default credential. 159658 [main] INFO com.google.cloud.hadoop.io.bigquery.BigQueryFactory - Creating BigQuery from given credential. 159658 [main] INFO com.google.cloud.hadoop.io.bigquery.BigQueryConfiguration - Fetching key 'mapred.bq.gcs.bucket' since 'mapred.bq.temp.gcs.path' isn't set explicitly. 159659 [main] INFO com.google.cloud.hadoop.io.bigquery.BigQueryConfiguration - Using working path: 'gs://iipbucket/hadoop/tmp/bigquery/job_201710040016_0008' 161147 [main] INFO com.google.cloud.hadoop.io.bigquery.ShardedExportToCloudStorage - Computed '2' shards for sharded BigQuery export. 161148 [main] INFO com.google.cloud.hadoop.io.bigquery.ShardedExportToCloudStorage - Table 'pure-respect-180709:spark_bigquery_staging_us.spark_bigquery_20171004041401_1420172520' to be exported has 164656 rows and 2650191 bytes 161377 [main] INFO com.google.cloud.hadoop.io.bigquery.ShardedExportToCloudStorage - Computed '2' shards for sharded BigQuery export. 161378 [main] INFO com.google.cloud.hadoop.io.bigquery.ShardedExportToCloudStorage - Table 'pure-respect-180709:spark_bigquery_staging_us.spark_bigquery_20171004041401_1420172520' to be exported has 164656 rows and 2650191 bytes 161383 [main] INFO org.apache.spark.SparkContext - Starting job: first at package.scala:113 161384 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Got job 2 (first at package.scala:113) with 1 output partitions 161384 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Final stage: ResultStage 3 (first at package.scala:113) 161384 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Parents of final stage: List() 161384 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Missing parents: List() 161384 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Submitting ResultStage 3 (MapPartitionsRDD[10] at map at package.scala:113), which has no missing parents 161386 [dag-scheduler-event-loop] INFO org.apache.spark.storage.MemoryStore - Block broadcast_6 stored as values in memory (estimated size 2.8 KB, free 760.3 KB) 161388 [dag-scheduler-event-loop] INFO org.apache.spark.storage.MemoryStore - Block broadcast_6_piece0 stored as bytes in memory (estimated size 1756.0 B, free 762.0 KB) 161388 [dispatcher-event-loop-3] INFO org.apache.spark.storage.BlockManagerInfo - Added broadcast_6_piece0 in memory on localhost:34778 (size: 1756.0 B, free: 4.1 GB) 161389 [dag-scheduler-event-loop] INFO org.apache.spark.SparkContext - Created broadcast 6 from broadcast at DAGScheduler.scala:1006 161389 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Submitting 1 missing tasks from ResultStage 3 (MapPartitionsRDD[10] at map at package.scala:113) 161389 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.TaskSchedulerImpl - Adding task set 3.0 with 1 tasks 161390 [dispatcher-event-loop-4] INFO org.apache.spark.scheduler.TaskSetManager - Starting task 0.0 in stage 3.0 (TID 4, localhost, partition 0,PROCESS_LOCAL, 2303 bytes) 161391 [Executor task launch worker-2] INFO org.apache.spark.executor.Executor - Running task 0.0 in stage 3.0 (TID 4) 161393 [Executor task launch worker-2] INFO org.apache.spark.rdd.NewHadoopRDD - Input split: gs://iipbucket/hadoop/tmp/bigquery/job_201710040016_0008/shard-0/data-.avro[82328 estimated records] 161393 [Executor task launch worker-2] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Initializing DynamicFileListRecordReader with split 'InputSplit:: length:82328 locations: [] toString(): gs://iipbucket/hadoop/tmp/bigquery/job_201710040016_0008/shard-0/data-.avro[82328 estimated records]', task context 'TaskAttemptContext:: TaskAttemptID:attempt_201710040016_0008_m_000000_0 Status:' 162366 [Executor task launch worker-2] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Adding new file 'data-000000000000.avro' of size 1667061 to knownFileSet. 162367 [Executor task launch worker-2] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Moving to next file 'gs://iipbucket/hadoop/tmp/bigquery/job_201710040016_0008/shard-0/data-000000000000.avro' which has 1667061 bytes. Records read so far: 0 163070 [Executor task launch worker-2] WARN com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Got non-null delegateReader during close(); possible premature close() call. 163072 [Executor task launch worker-2] INFO org.apache.spark.executor.Executor - Finished task 0.0 in stage 3.0 (TID 4). 2230 bytes result sent to driver 163073 [task-result-getter-0] INFO org.apache.spark.scheduler.TaskSetManager - Finished task 0.0 in stage 3.0 (TID 4) in 1683 ms on localhost (1/1) 163073 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - ResultStage 3 (first at package.scala:113) finished in 1.684 s 163073 [task-result-getter-0] INFO org.apache.spark.scheduler.TaskSchedulerImpl - Removed TaskSet 3.0, whose tasks have all completed, from pool 163074 [main] INFO org.apache.spark.scheduler.DAGScheduler - Job 2 finished: first at package.scala:113, took 1.690461 s Map(spark.sql.thriftServer.incrementalCollect -> true, spark.sql.inMemoryColumnarStorage.compressed -> true, spark.sql.inMemoryColumnarStorage.partitionPruning -> true) 163173 [main] INFO org.apache.spark.SparkContext - Starting job: take at App.scala:116 163174 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Got job 3 (take at App.scala:116) with 1 output partitions 163174 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Final stage: ResultStage 4 (take at App.scala:116) 163174 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Parents of final stage: List() 163175 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Missing parents: List() 163175 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Submitting ResultStage 4 (MapPartitionsRDD[13] at take at App.scala:116), which has no missing parents 163178 [dag-scheduler-event-loop] INFO org.apache.spark.storage.MemoryStore - Block broadcast_7 stored as values in memory (estimated size 5.0 KB, free 766.9 KB) 163179 [dag-scheduler-event-loop] INFO org.apache.spark.storage.MemoryStore - Block broadcast_7_piece0 stored as bytes in memory (estimated size 2.6 KB, free 769.6 KB) 163180 [dispatcher-event-loop-7] INFO org.apache.spark.storage.BlockManagerInfo - Added broadcast_7_piece0 in memory on localhost:34778 (size: 2.6 KB, free: 4.1 GB) 163181 [dag-scheduler-event-loop] INFO org.apache.spark.SparkContext - Created broadcast 7 from broadcast at DAGScheduler.scala:1006 163181 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Submitting 1 missing tasks from ResultStage 4 (MapPartitionsRDD[13] at take at App.scala:116) 163181 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.TaskSchedulerImpl - Adding task set 4.0 with 1 tasks 163182 [dispatcher-event-loop-8] INFO org.apache.spark.scheduler.TaskSetManager - Starting task 0.0 in stage 4.0 (TID 5, localhost, partition 0,PROCESS_LOCAL, 2303 bytes) 163183 [Executor task launch worker-2] INFO org.apache.spark.executor.Executor - Running task 0.0 in stage 4.0 (TID 5) 163189 [Executor task launch worker-2] INFO org.apache.spark.rdd.NewHadoopRDD - Input split: gs://iipbucket/hadoop/tmp/bigquery/job_201710040016_0008/shard-0/data-.avro[82328 estimated records] 163190 [Executor task launch worker-2] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Initializing DynamicFileListRecordReader with split 'InputSplit:: length:82328 locations: [] toString(): gs://iipbucket/hadoop/tmp/bigquery/job_201710040016_0008/shard-0/data-.avro[82328 estimated records]', task context 'TaskAttemptContext:: TaskAttemptID:attempt_201710040016_0008_m_000000_0 Status:' 163686 [Executor task launch worker-2] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Adding new file 'data-000000000000.avro' of size 1667061 to knownFileSet. 163686 [Executor task launch worker-2] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Adding new file 'data-000000000001.avro' of size 409 to knownFileSet. 163687 [Executor task launch worker-2] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Moving to next file 'gs://iipbucket/hadoop/tmp/bigquery/job_201710040016_0008/shard-0/data-000000000000.avro' which has 1667061 bytes. Records read so far: 0 164410 [Executor task launch worker-2] WARN com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Got non-null delegateReader during close(); possible premature close() call. 164417 [Executor task launch worker-2] INFO org.apache.spark.executor.Executor - Finished task 0.0 in stage 4.0 (TID 5). 6022 bytes result sent to driver 164419 [task-result-getter-1] INFO org.apache.spark.scheduler.TaskSetManager - Finished task 0.0 in stage 4.0 (TID 5) in 1237 ms on localhost (1/1) 164419 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - ResultStage 4 (take at App.scala:116) finished in 1.238 s 164419 [task-result-getter-1] INFO org.apache.spark.scheduler.TaskSchedulerImpl - Removed TaskSet 4.0, whose tasks have all completed, from pool 164420 [main] INFO org.apache.spark.scheduler.DAGScheduler - Job 3 finished: take at App.scala:116, took 1.246298 s 164441 [main] INFO org.apache.spark.SparkContext - Starting job: take at App.scala:125 164442 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Got job 4 (take at App.scala:125) with 1 output partitions 164442 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Final stage: ResultStage 5 (take at App.scala:125) 164442 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Parents of final stage: List() 164442 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Missing parents: List() 164443 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Submitting ResultStage 5 (MapPartitionsRDD[14] at toJSON at App.scala:125), which has no missing parents 164444 [dag-scheduler-event-loop] INFO org.apache.spark.storage.MemoryStore - Block broadcast_8 stored as values in memory (estimated size 5.3 KB, free 774.9 KB) 164445 [dag-scheduler-event-loop] INFO org.apache.spark.storage.MemoryStore - Block broadcast_8_piece0 stored as bytes in memory (estimated size 2.8 KB, free 777.7 KB) 164446 [dispatcher-event-loop-11] INFO org.apache.spark.storage.BlockManagerInfo - Added broadcast_8_piece0 in memory on localhost:34778 (size: 2.8 KB, free: 4.1 GB) 164446 [dag-scheduler-event-loop] INFO org.apache.spark.SparkContext - Created broadcast 8 from broadcast at DAGScheduler.scala:1006 164446 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Submitting 1 missing tasks from ResultStage 5 (MapPartitionsRDD[14] at toJSON at App.scala:125) 164446 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.TaskSchedulerImpl - Adding task set 5.0 with 1 tasks 164447 [dispatcher-event-loop-12] INFO org.apache.spark.scheduler.TaskSetManager - Starting task 0.0 in stage 5.0 (TID 6, localhost, partition 0,PROCESS_LOCAL, 2303 bytes) 164447 [Executor task launch worker-2] INFO org.apache.spark.executor.Executor - Running task 0.0 in stage 5.0 (TID 6) 164450 [Executor task launch worker-2] INFO org.apache.spark.rdd.NewHadoopRDD - Input split: gs://iipbucket/hadoop/tmp/bigquery/job_201710040016_0008/shard-0/data-.avro[82328 estimated records] 164451 [Executor task launch worker-2] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Initializing DynamicFileListRecordReader with split 'InputSplit:: length:82328 locations: [] toString(): gs://iipbucket/hadoop/tmp/bigquery/job_201710040016_0008/shard-0/data-.avro[82328 estimated records]', task context 'TaskAttemptContext:: TaskAttemptID:attempt_201710040016_0008_m_000000_0 Status:' 164866 [Executor task launch worker-2] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Adding new file 'data-000000000000.avro' of size 1667061 to knownFileSet. 164866 [Executor task launch worker-2] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Adding new file 'data-000000000001.avro' of size 409 to knownFileSet. 164866 [Executor task launch worker-2] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Moving to next file 'gs://iipbucket/hadoop/tmp/bigquery/job_201710040016_0008/shard-0/data-000000000000.avro' which has 1667061 bytes. Records read so far: 0 165361 [Executor task launch worker-2] WARN com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Got non-null delegateReader during close(); possible premature close() call. 165362 [Executor task launch worker-2] INFO org.apache.spark.executor.Executor - Finished task 0.0 in stage 5.0 (TID 6). 5168 bytes result sent to driver 165364 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - ResultStage 5 (take at App.scala:125) finished in 0.917 s 165364 [task-result-getter-2] INFO org.apache.spark.scheduler.TaskSetManager - Finished task 0.0 in stage 5.0 (TID 6) in 916 ms on localhost (1/1) 165364 [task-result-getter-2] INFO org.apache.spark.scheduler.TaskSchedulerImpl - Removed TaskSet 5.0, whose tasks have all completed, from pool 165364 [main] INFO org.apache.spark.scheduler.DAGScheduler - Job 4 finished: take at App.scala:125, took 0.923151 s 165712 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.job.id is deprecated. Instead, use mapreduce.job.id 165713 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.tip.id is deprecated. Instead, use mapreduce.task.id 165713 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.task.id is deprecated. Instead, use mapreduce.task.attempt.id 165713 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.task.is.map is deprecated. Instead, use mapreduce.task.ismap 165713 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.task.partition is deprecated. Instead, use mapreduce.task.partition 165722 [main] INFO com.databricks.spark.avro.AvroRelation - using deflate: -1 for Avro output 165723 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - mapred.output.compress is deprecated. Instead, use mapreduce.output.fileoutputformat.compress 165724 [main] INFO com.google.cloud.hadoop.io.bigquery.output.ForwardingBigQueryFileOutputFormat
Delegating functionality to 'TextOutputFormat'. 165746 [main] INFO com.google.cloud.hadoop.io.bigquery.BigQueryFactory - Creating BigQuery from default credential. 165747 [main] INFO com.google.cloud.hadoop.io.bigquery.BigQueryFactory - Creating BigQuery from given credential. 165748 [main] INFO org.apache.spark.sql.execution.datasources.DefaultWriterContainer - Using output committer class com.google.cloud.hadoop.io.bigquery.output.IndirectBigQueryOutputCommitter 166777 [main] INFO org.apache.spark.SparkContext - Starting job: save at package.scala:37 166778 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Got job 5 (save at package.scala:37) with 2 output partitions 166778 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Final stage: ResultStage 6 (save at package.scala:37) 166779 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Parents of final stage: List() 166779 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Missing parents: List() 166779 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Submitting ResultStage 6 (MapPartitionsRDD[12] at createDataFrame at package.scala:119), which has no missing parents 166789 [dag-scheduler-event-loop] INFO org.apache.spark.storage.MemoryStore - Block broadcast_9 stored as values in memory (estimated size 71.0 KB, free 848.7 KB) 166791 [dag-scheduler-event-loop] INFO org.apache.spark.storage.MemoryStore - Block broadcast_9_piece0 stored as bytes in memory (estimated size 27.1 KB, free 875.7 KB) 166792 [dispatcher-event-loop-16] INFO org.apache.spark.storage.BlockManagerInfo - Added broadcast_9_piece0 in memory on localhost:34778 (size: 27.1 KB, free: 4.1 GB) 166792 [dag-scheduler-event-loop] INFO org.apache.spark.SparkContext - Created broadcast 9 from broadcast at DAGScheduler.scala:1006 166792 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - Submitting 2 missing tasks from ResultStage 6 (MapPartitionsRDD[12] at createDataFrame at package.scala:119) 166792 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.TaskSchedulerImpl - Adding task set 6.0 with 2 tasks 166793 [dispatcher-event-loop-15] INFO org.apache.spark.scheduler.TaskSetManager - Starting task 0.0 in stage 6.0 (TID 7, localhost, partition 0,PROCESS_LOCAL, 2303 bytes) 166794 [dispatcher-event-loop-15] INFO org.apache.spark.scheduler.TaskSetManager - Starting task 1.0 in stage 6.0 (TID 8, localhost, partition 1,PROCESS_LOCAL, 2303 bytes) 166794 [Executor task launch worker-2] INFO org.apache.spark.executor.Executor - Running task 0.0 in stage 6.0 (TID 7) 166795 [Executor task launch worker-3] INFO org.apache.spark.executor.Executor - Running task 1.0 in stage 6.0 (TID 8) 166815 [Executor task launch worker-2] INFO org.apache.spark.rdd.NewHadoopRDD - Input split: gs://iipbucket/hadoop/tmp/bigquery/job_201710040016_0008/shard-0/data-.avro[82328 estimated records] 166816 [Executor task launch worker-2] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Initializing DynamicFileListRecordReader with split 'InputSplit:: length:82328 locations: [] toString(): gs://iipbucket/hadoop/tmp/bigquery/job_201710040016_0008/shard-0/data-.avro[82328 estimated records]', task context 'TaskAttemptContext:: TaskAttemptID:attempt_201710040016_0008_m_000000_0 Status:' 166817 [Executor task launch worker-3] INFO org.apache.spark.rdd.NewHadoopRDD - Input split: gs://iipbucket/hadoop/tmp/bigquery/job_201710040016_0008/shard-1/data-.avro[82328 estimated records] 166817 [Executor task launch worker-3] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Initializing DynamicFileListRecordReader with split 'InputSplit:: length:82328 locations: [] toString(): gs://iipbucket/hadoop/tmp/bigquery/job_201710040016_0008/shard-1/data-.avro[82328 estimated records]', task context 'TaskAttemptContext:: TaskAttemptID:attempt_201710040016_0008_m_000001_0 Status:' 167042 [Executor task launch worker-2] INFO com.google.cloud.hadoop.io.bigquery.output.ForwardingBigQueryFileOutputFormat
Delegating functionality to 'TextOutputFormat'. 167069 [Executor task launch worker-2] INFO com.google.cloud.hadoop.io.bigquery.BigQueryFactory - Creating BigQuery from default credential. 167071 [Executor task launch worker-2] INFO com.google.cloud.hadoop.io.bigquery.BigQueryFactory - Creating BigQuery from given credential. 167071 [Executor task launch worker-2] INFO org.apache.spark.sql.execution.datasources.DefaultWriterContainer - Using output committer class com.google.cloud.hadoop.io.bigquery.output.IndirectBigQueryOutputCommitter 167419 [Executor task launch worker-3] INFO com.google.cloud.hadoop.io.bigquery.output.ForwardingBigQueryFileOutputFormat
Delegating functionality to 'TextOutputFormat'. 167441 [Executor task launch worker-3] INFO com.google.cloud.hadoop.io.bigquery.BigQueryFactory - Creating BigQuery from default credential. 167441 [Executor task launch worker-3] INFO com.google.cloud.hadoop.io.bigquery.BigQueryFactory - Creating BigQuery from given credential. 167747 [Executor task launch worker-2] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Adding new file 'data-000000000000.avro' of size 1667061 to knownFileSet. 169086 [Executor task launch worker-3] INFO org.apache.spark.sql.execution.datasources.DefaultWriterContainer - Using output committer class com.google.cloud.hadoop.io.bigquery.output.IndirectBigQueryOutputCommitter 169086 [Executor task launch worker-2] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Adding new file 'data-000000000001.avro' of size 409 to knownFileSet. 169086 [Executor task launch worker-2] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Moving to next file 'gs://iipbucket/hadoop/tmp/bigquery/job_201710040016_0008/shard-0/data-000000000000.avro' which has 1667061 bytes. Records read so far: 0 169403 [Spark Context Cleaner] INFO org.apache.spark.ContextCleaner - Cleaned accumulator 3 169403 [Spark Context Cleaner] INFO org.apache.spark.ContextCleaner - Cleaned accumulator 4 169406 [dispatcher-event-loop-21] INFO org.apache.spark.storage.BlockManagerInfo - Removed broadcast_6_piece0 on localhost:34778 in memory (size: 1756.0 B, free: 4.1 GB) 169409 [dispatcher-event-loop-24] INFO org.apache.spark.storage.BlockManagerInfo - Removed broadcast_7_piece0 on localhost:34778 in memory (size: 2.6 KB, free: 4.1 GB) 169412 [dispatcher-event-loop-27] INFO org.apache.spark.storage.BlockManagerInfo - Removed broadcast_8_piece0 on localhost:34778 in memory (size: 2.8 KB, free: 4.1 GB) 169413 [dispatcher-event-loop-30] INFO org.apache.spark.storage.BlockManagerInfo - Removed broadcast_4_piece0 on localhost:34778 in memory (size: 1751.0 B, free: 4.1 GB) 169413 [Spark Context Cleaner] INFO org.apache.spark.ContextCleaner - Cleaned accumulator 5 169413 [Spark Context Cleaner] INFO org.apache.spark.ContextCleaner - Cleaned accumulator 6 169751 [Executor task launch worker-3] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Adding new file 'data-000000000000.avro' of size 409 to knownFileSet. 169751 [Executor task launch worker-3] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Moving to next file 'gs://iipbucket/hadoop/tmp/bigquery/job_201710040016_0008/shard-1/data-000000000000.avro' which has 409 bytes. Records read so far: 0 170220 [Executor task launch worker-3] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Found end-marker file 'data-000000000000.avro' with index 0 170664 [Executor task launch worker-3] INFO org.apache.spark.mapred.SparkHadoopMapRedUtil - No need to commit output of task because needsTaskCommit=false: attempt_201710040016_0006_m_000001_0 170665 [Executor task launch worker-3] INFO org.apache.spark.executor.Executor - Finished task 1.0 in stage 6.0 (TID 8). 2099 bytes result sent to driver 170666 [task-result-getter-3] INFO org.apache.spark.scheduler.TaskSetManager - Finished task 1.0 in stage 6.0 (TID 8) in 3872 ms on localhost (1/2) 171002 [Executor task launch worker-2] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Moving to next file 'gs://iipbucket/hadoop/tmp/bigquery/job_201710040016_0008/shard-0/data-000000000001.avro' which has 409 bytes. Records read so far: 164656 171390 [Executor task launch worker-2] INFO com.google.cloud.hadoop.io.bigquery.DynamicFileListRecordReader - Found end-marker file 'data-000000000001.avro' with index 1 171947 [Executor task launch worker-2] INFO org.apache.spark.mapred.SparkHadoopMapRedUtil - No need to commit output of task because needsTaskCommit=false: attempt_201710040016_0006_m_000000_0 171948 [Executor task launch worker-2] INFO org.apache.spark.executor.Executor - Finished task 0.0 in stage 6.0 (TID 7). 2099 bytes result sent to driver 171949 [task-result-getter-0] INFO org.apache.spark.scheduler.TaskSetManager - Finished task 0.0 in stage 6.0 (TID 7) in 5156 ms on localhost (2/2) 171949 [dag-scheduler-event-loop] INFO org.apache.spark.scheduler.DAGScheduler - ResultStage 6 (save at package.scala:37) finished in 5.156 s 171949 [task-result-getter-0] INFO org.apache.spark.scheduler.TaskSchedulerImpl - Removed TaskSet 6.0, whose tasks have all completed, from pool 171949 [main] INFO org.apache.spark.scheduler.DAGScheduler - Job 5 finished: save at package.scala:37, took 5.171605 s 173738 [main] INFO com.google.cloud.hadoop.io.bigquery.BigQueryHelper - Importing into table 'pure-respect-180709:wordcount_dataset.word_cnt' from 2 paths; path[0] is 'gs://iipbucket/hadoop/tmp/spark-bigquery/spark-bigquery-1507090584737=1777134178/part-r-00000-188a4569-2aa6-44d3-9683-a21dd437790a.avro'; awaitCompletion: true 173739 [main] INFO com.google.cloud.hadoop.io.bigquery.BigQueryHelper - No import schema provided, auto detecting schema. 174366 [main] ERROR org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelation - Aborting job. java.io.IOException: Failed to parse JSON: Unexpected token; Parser terminated before end of string at com.google.cloud.hadoop.io.bigquery.BigQueryUtils.waitForJobCompletion(BigQueryUtils.java:95) at com.google.cloud.hadoop.io.bigquery.BigQueryHelper.importFromGcs(BigQueryHelper.java:164) at com.google.cloud.hadoop.io.bigquery.output.IndirectBigQueryOutputCommitter.commitJob(IndirectBigQueryOutputCommitter.java:57) at org.apache.spark.sql.execution.datasources.BaseWriterContainer.commitJob(WriterContainer.scala:230) at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelation$$anonfun$run$1.apply$mcV$sp(InsertIntoHadoopFsRelation.scala:149) at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelation$$anonfun$run$1.apply(InsertIntoHadoopFsRelation.scala:106) at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelation$$anonfun$run$1.apply(InsertIntoHadoopFsRelation.scala:106) at org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:56) at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelation.run(InsertIntoHadoopFsRelation.scala:106) at org.apache.spark.sql.execution.ExecutedCommand.sideEffectResult$lzycompute(commands.scala:58) at org.apache.spark.sql.execution.ExecutedCommand.sideEffectResult(commands.scala:56) at org.apache.spark.sql.execution.ExecutedCommand.doExecute(commands.scala:70) at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$5.apply(SparkPlan.scala:132) at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$5.apply(SparkPlan.scala:130) at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:150) at org.apache.spark.sql.execution.SparkPlan.execute(SparkPlan.scala:130) at org.apache.spark.sql.execution.QueryExecution.toRdd$lzycompute(QueryExecution.scala:55) at org.apache.spark.sql.execution.QueryExecution.toRdd(QueryExecution.scala:55) at org.apache.spark.sql.execution.datasources.ResolvedDataSource$.apply(ResolvedDataSource.scala:256) at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:148) at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:139) at com.databricks.spark.avro.package$AvroDataFrameWriter$$anonfun$avro$1.apply(package.scala:37) at com.databricks.spark.avro.package$AvroDataFrameWriter$$anonfun$avro$1.apply(package.scala:37) at com.spotify.spark.bigquery.package$BigQueryDataFrame.saveAsBigQueryTable(package.scala:150) at com.spotify.spark.bigquery.package$BigQueryDataFrame.saveAsBigQueryTable(package.scala:162) at bigquery.App$.main(App.scala:126) at bigquery.App.main(App.scala) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:497) at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:731) at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:181) at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:206) at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:121) at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala) 174724 [main] INFO com.google.cloud.hadoop.io.bigquery.output.ForwardingBigQueryFileOutputCommitter
Found GCS output data at 'gs://iipbucket/hadoop/tmp/spark-bigquery/spark-bigquery-1507090584737=1777134178', attempting to clean up. 175349 [main] INFO com.google.cloud.hadoop.io.bigquery.output.ForwardingBigQueryFileOutputCommitter
Successfully deleted GCS output path 'gs://iipbucket/hadoop/tmp/spark-bigquery/spark-bigquery-1507090584737=1777134178'. 175350 [main] ERROR org.apache.spark.sql.execution.datasources.DefaultWriterContainer - Job job_201710040016_0000 aborted. Exception in thread "main" org.apache.spark.SparkException: Job aborted. at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelation$$anonfun$run$1.apply$mcV$sp(InsertIntoHadoopFsRelation.scala:154) at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelation$$anonfun$run$1.apply(InsertIntoHadoopFsRelation.scala:106) at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelation$$anonfun$run$1.apply(InsertIntoHadoopFsRelation.scala:106) at org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:56) at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelation.run(InsertIntoHadoopFsRelation.scala:106) at org.apache.spark.sql.execution.ExecutedCommand.sideEffectResult$lzycompute(commands.scala:58) at org.apache.spark.sql.execution.ExecutedCommand.sideEffectResult(commands.scala:56) at org.apache.spark.sql.execution.ExecutedCommand.doExecute(commands.scala:70) at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$5.apply(SparkPlan.scala:132) at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$5.apply(SparkPlan.scala:130) at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:150) at org.apache.spark.sql.execution.SparkPlan.execute(SparkPlan.scala:130) at org.apache.spark.sql.execution.QueryExecution.toRdd$lzycompute(QueryExecution.scala:55) at org.apache.spark.sql.execution.QueryExecution.toRdd(QueryExecution.scala:55) at org.apache.spark.sql.execution.datasources.ResolvedDataSource$.apply(ResolvedDataSource.scala:256) at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:148) at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:139) at com.databricks.spark.avro.package$AvroDataFrameWriter$$anonfun$avro$1.apply(package.scala:37) at com.databricks.spark.avro.package$AvroDataFrameWriter$$anonfun$avro$1.apply(package.scala:37) at com.spotify.spark.bigquery.package$BigQueryDataFrame.saveAsBigQueryTable(package.scala:150) at com.spotify.spark.bigquery.package$BigQueryDataFrame.saveAsBigQueryTable(package.scala:162) at bigquery.App$.main(App.scala:126) at bigquery.App.main(App.scala) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) at java.lang.reflect.Method.invoke(Method.java:497) at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:731) at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:181) at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:206) at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:121) at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala) Caused by: java.io.IOException: Failed to parse JSON: Unexpected token; Parser terminated before end of string at com.google.cloud.hadoop.io.bigquery.BigQueryUtils.waitForJobCompletion(BigQueryUtils.java:95) at com.google.cloud.hadoop.io.bigquery.BigQueryHelper.importFromGcs(BigQueryHelper.java:164) at com.google.cloud.hadoop.io.bigquery.output.IndirectBigQueryOutputCommitter.commitJob(IndirectBigQueryOutputCommitter.java:57) at org.apache.spark.sql.execution.datasources.BaseWriterContainer.commitJob(WriterContainer.scala:230) at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelation$$anonfun$run$1.apply$mcV$sp(InsertIntoHadoopFsRelation.scala:149) ... 31 more 175353 [Thread-3] INFO org.apache.spark.SparkContext - Invoking stop() from shutdown hook 175437 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/static/sql,null} 175438 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/SQL/execution/json,null} 175438 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/SQL/execution,null} 175438 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/SQL/json,null} 175439 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/SQL,null} 175439 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/metrics/json,null} 175439 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/stages/stage/kill,null} 175439 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/api,null} 175439 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/,null} 175440 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/static,null} 175440 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/executors/threadDump/json,null} 175440 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/executors/threadDump,null} 175440 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/executors/json,null} 175440 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/executors,null} 175440 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/environment/json,null} 175440 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/environment,null} 175441 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/storage/rdd/json,null} 175441 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/storage/rdd,null} 175441 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/storage/json,null} 175441 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/storage,null} 175441 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/stages/pool/json,null} 175441 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/stages/pool,null} 175441 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/stages/stage/json,null} 175442 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/stages/stage,null} 175442 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/stages/json,null} 175442 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/stages,null} 175442 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/jobs/job/json,null} 175442 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/jobs/job,null} 175442 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/jobs/json,null} 175442 [Thread-3] INFO org.spark-project.jetty.server.handler.ContextHandler - stopped o.s.j.s.ServletContextHandler{/jobs,null} 175495 [Thread-3] INFO org.apache.spark.ui.SparkUI - Stopped Spark web UI at http://10.177.116.69:8085 175520 [dispatcher-event-loop-5] INFO org.apache.spark.MapOutputTrackerMasterEndpoint - MapOutputTrackerMasterEndpoint stopped! 175526 [Thread-3] INFO org.apache.spark.storage.MemoryStore - MemoryStore cleared 175527 [Thread-3] INFO org.apache.spark.storage.BlockManager - BlockManager stopped 175528 [Thread-3] INFO org.apache.spark.storage.BlockManagerMaster - BlockManagerMaster stopped 175529 [dispatcher-event-loop-10] INFO org.apache.spark.scheduler.OutputCommitCoordinator$OutputCommitCoordinatorEndpoint
OutputCommitCoordinator stopped! 175532 [Thread-3] INFO org.apache.spark.SparkContext - Successfully stopped SparkContext 175534 [Thread-3] INFO org.apache.spark.util.ShutdownHookManager - Shutdown hook called 175535 [Thread-3] INFO org.apache.spark.util.ShutdownHookManager - Deleting directory /mydata/Mana_2.3/tmp/spark-7bb14363-a18e-453c-a00c-3518c171a6ee 175537 [sparkDriverActorSystem-akka.actor.default-dispatcher-4] INFO akka.remote.RemoteActorRefProvider$RemotingTerminator - Shutting down remote daemon. 175538 [sparkDriverActorSystem-akka.actor.default-dispatcher-4] INFO akka.remote.RemoteActorRefProvider$RemotingTerminator - Remote daemon shut down; proceeding with flushing remote transports. 175558 [sparkDriverActorSystem-akka.actor.default-dispatcher-4] INFO akka.remote.RemoteActorRefProvider$RemotingTerminator - Remoting shut down. 175564 [Thread-3] INFO org.apache.spark.util.ShutdownHookManager - Deleting directory /mydata/Mana_2.3/tmp/spark-7bb14363-a18e-453c-a00c-3518c171a6ee/httpd-a83d59a5-55c0-4004-94e0-5f7409d187c4

On Wed, Oct 4, 2017 at 12:05 AM, Sam Elamin notifications@github.com wrote:

not sure where the problem is here, can you post the entire stacktrace?

id seperate the reading vs writing to identify where the issue is

— You are receiving this because you authored the thread. Reply to this email directly, view it on GitHub https://github.com/samelamin/spark-bigquery/issues/45#issuecomment-333937981, or mute the thread https://github.com/notifications/unsubscribe-auth/ALmGApE4dpOCLnYQAp_h6iDUm0YiU4g4ks5son6KgaJpZM4PsDns .

samelamin / spark-bigquery

Json parsing failed when i was using the saveAsBigQueryTable #45