deepglint / unicom

MLCD & UNICOM : Large-Scale Visual Representation Model
https://huggingface.co/collections/DeepGlint-AI/mlcd-670d18d767cea37ea7436e69
234 stars 18 forks source link

关于数据集制作 #8

Open KeyaoZhao opened 1 year ago

KeyaoZhao commented 1 year ago

您好!我想请问一下在新的小数据集上finetune时可能会遗忘学过的LAION 400M,导致finetune后的模型泛化性能下降。所以我计划在finetune时也加入部分LAION 400M数据,但是我使用LAION 400M聚类到1M时的类id可能和您训练时的不同,这是否会产生冲突呢?请问数据集的这些信息或者原始的制作方法您可以公布下吗?非常感谢~

anxiangsir commented 1 year ago

马上会把,做数据集的脚本和100w类中心的权重放出来。

hbchen121 commented 1 year ago

请问能否先release一下400M特征时的聚类算法?想学习一下数据集如何制作,非常感谢!

hbchen121 commented 9 months ago

马上会把,做数据集的脚本和100w类中心的权重放出来。

你好,请问有最近的计划了吗