Open liyifu93 opened 2 years ago
thx~, 使用Spark进行数据降维 文件及代码已经上传更新,聚类文件夹中的关于图像和视频帧处理方法需要根据实际lib version做相应调整
update 11/14/2022
使用Spark进行数据降维.ipynb文件报错 AttributeError: 'OneHotEncoder' object has no attribute 'transform' Solution: stringIndexer = StringIndexer(inputCol="job", outputCol="job_index") model = stringIndexer.fit(df2) indexed = model.transform(df2) encoder = OneHotEncoder(dropLast=False, inputCol="job_index", outputCol="job_vec") #encoded = encoder.transform(indexed) # comment out掉 indexed_fit = encoder.fit(indexed) # 新增两行1/2 encoded = indexed_fit.transform(indexed) # 新增两行2/2 df2 = encoded 对下面每个block重复同样的操作 Ref: https://spark.apache.org/docs/3.1.1/api/python/reference/api/pyspark.ml.feature.OneHotEncoder.html https://stackoverflow.com/questions/64011674/onehotencoder-object-has-no-attribute-transform
“使用Spark进行数据降维”文件夹下的代码文件错误。 .ipynb文件放的是“使用Spark构建聚类模型”文件夹里的文件,用的数据也是该文件夹下的COVID数据,与bank无关。
“使用Spark构建聚类模型”文件夹里的.ipynb文件有两处报错:
“使用Spark进行数据处理和数据转换”文件夹里的.ipynb文件并不能读取./CaliforniaHousing/cal_housing.data路径下的文件。 解决方法暂时为把HOUSING_DATA = './CaliforniaHousing/cal_housing.data' 改为 HOUSING_DATA = './cal_housing.data',并把cal_housing.data复制到上一级目录下。