Marigoldwu / A-Unified-Framework-for-Deep-Attribute-Graph-Clustering

This project is a scalable unified framework for deep graph clustering.
https://www.marigold.website/readArticle?workId=145&author=Marigold&authorId=1000001
MIT License
85 stars 11 forks source link

数据集 #3

Closed 11051911 closed 10 months ago

11051911 commented 10 months ago

你好万寿菊我想问一下.npy文件可以是.txt文件,或者是.csv文件吗?用.npy文件有啥好处

Marigoldwu commented 10 months ago

你好,在现在的框架里不可以用其他格式,因为扩展名被我写死了,你可以对代码进行修改,以满足读取其他格式的文件。npy文件是二进制文件,相对于文本文件来说效率更高。感谢您对本工作的关注,如果喜欢的话,点个赞呗😊

11051911 commented 10 months ago

你好,在现在的框架里不可以用其他格式,因为扩展名被我写死了,你可以对代码进行修改,以满足读取其他格式的文件。npy文件是二进制文件,相对于文本文件来说效率更高。感谢您对本工作的关注,如果喜欢的话,点个赞呗😊

肯定的,非常棒的工作,如果要用图聚类的话,如果是别的数据有特征矩阵的,特征矩阵的值可能比较大(十位数)还有可能比较稀疏的话,需要做些处理之后再用KNN构造图输入到图聚类中,还是KNN在构造图的过程中处理的很好了。我看您提供的输入数据里面的值都不大,如果数值大或者聚类的数量多的话效果会不会受影响比较大。期待您的回复。感谢感谢!

Marigoldwu commented 10 months ago

您好,如果数据的量纲统一,或者无量纲,那么影响不大,反之会有较大影响,因为knn计算时涉及到特征向量间的距离或者相似度,如果量纲不统一,较大数据会导致很大的偏差,建议先进行中心化或者归一化等预处理操作。以上是我个人看法,可能会有不当之处。