aliyun / alibabacloud-jindodata

alibabacloud-jindodata
Apache License 2.0
178 stars 46 forks source link

ECS自建原生Spark使用Jindo SDK访问OSS数据失败 #101

Closed Ao-Last closed 1 year ago

Ao-Last commented 1 year ago
  1. HDFS使用Jindo访问OSS已经成功.
  2. Spark的配置文件中已经设置HADOOP_CONF_DIR指向了/etc/hadoop
  3. Spark/jars中也已经包含jindo-sdk和jindo-core两个jar包
  4. 使用PySpark, 已经尝试过在使用pyspark时添加以下设置项 .set("spark.hadoop.fs.oss.impl", "com.aliyun.jindodata.oss.JindoOssFileSystem")\ .set("spark.hadoop.fs.AbstractFileSystem.oss.impl", "com.aliyun.jindodata.oss.OSS")
  5. 仍然报错: Class com.aliyun.jindodata.oss.JindoOssFileSystem not found
  6. Spark cluster的模式为spark-standalone, 并未使用yarn作为resource manager, 不知是否有影响; hdfs服务已经启动;
Ao-Last commented 1 year ago

同一配置下, 使用bin/spark-shell可以成功通过oss://访问; PySpark仍然失败.

Ao-Last commented 1 year ago

已经解决. 使用bin/pyspark一切正常; 使用自己通过pip或者conda安装的则失败, 或许需要额外配置.

Ao-Last commented 1 year ago

配置SPARK_HOME环境变量后一切正常.