知识蒸馏后的效果

OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.

MIT License

4.32k stars 448 forks source link

Open cuyhqqwatw044 opened 11 months ago

cuyhqqwatw044 commented 11 months ago

您好，看到最新更新了知识蒸馏的功能，是否有蒸馏前后指标对比说明啊？

wuziheng commented 11 months ago

数值指标是在公司内部数据上做的，确实不方便公开，也不具有广泛的参考，但针对特定领域，例如电商图文领域在小模型上是有显著提升的。

cuyhqqwatw044 commented 11 months ago

在说明界面，指明本次实验的support数据集有10万电商数据量（包括鞋子、衣服、裤子等物品），请问相比预训练的2亿数据，10w数据量做微调+蒸馏，实际训练时是仅用10w数据，还是10w数据+部分预训练数据啊？

wuziheng commented 11 months ago

10万是用作最后测试的数据集大小，预训练采用的是chineseclip的预训练，微调大约有千万量级的数据对。

tigerzjh commented 8 months ago

这个对比图也有点疑问： 1、这个是先检测后调用的模型？ 2、我们有试用蒸馏resnet50 吗？ 3、我看我们不同模型最终特征的维度不一样，也可以蒸馏吗resnet50 1024、ViT-B-16 512, ViT-L-14 768？

22wei22 commented 1 month ago

10万是用作最后测试的数据集大小，预训练采用的是chineseclip的预训练，微调大约有千万量级的数据对。

淘宝的商品标题会堆叠很多词语，不想muge数据集那样简介，直接微调是否会导致性能下降？