问题汇总11.13.2022 - Githubissues

liyifu93 commented 2 years ago

“使用Spark进行数据降维”文件夹下的代码文件错误。 .ipynb文件放的是“使用Spark构建聚类模型”文件夹里的文件，用的数据也是该文件夹下的COVID数据，与bank无关。

“使用Spark构建聚类模型”文件夹里的.ipynb文件有两处报错：

    一、frames = [frame.convert('PA') for frame in frames]
    报错信息为ValueError: image has wrong mode
    解决方法为把PA改成P

    二、clb = fig.colorbar(sm, ax=axes.flat, location='bottom', fraction=0.056)
    报错信息为AttributeError: 'numpy.flatiter' object has no attribute 'get_figure'
    解决方法为删去ax=axes.flat

“使用Spark进行数据处理和数据转换”文件夹里的.ipynb文件并不能读取./CaliforniaHousing/cal_housing.data路径下的文件。解决方法暂时为把HOUSING_DATA = './CaliforniaHousing/cal_housing.data' 改为 HOUSING_DATA = './cal_housing.data'，并把cal_housing.data复制到上一级目录下。

shawshany commented 2 years ago

thx~，使用Spark进行数据降维文件及代码已经上传更新，聚类文件夹中的关于图像和视频帧处理方法需要根据实际lib version做相应调整

liyifu93 commented 2 years ago

update 11/14/2022

使用Spark进行数据降维.ipynb文件报错 AttributeError: 'OneHotEncoder' object has no attribute 'transform' Solution： stringIndexer = StringIndexer(inputCol="job", outputCol="job_index") model = stringIndexer.fit(df2) indexed = model.transform(df2) encoder = OneHotEncoder(dropLast=False, inputCol="job_index", outputCol="job_vec") #encoded = encoder.transform(indexed) # comment out掉 indexed_fit = encoder.fit(indexed) # 新增两行1/2 encoded = indexed_fit.transform(indexed) # 新增两行2/2 df2 = encoded 对下面每个block重复同样的操作 Ref: https://spark.apache.org/docs/3.1.1/api/python/reference/api/pyspark.ml.feature.OneHotEncoder.html https://stackoverflow.com/questions/64011674/onehotencoder-object-has-no-attribute-transform

shawshany / SparkML

问题汇总11.13.2022 #1