Open cuyhqqwatw044 opened 11 months ago
数值指标是在公司内部数据上做的,确实不方便公开,也不具有广泛的参考,但针对特定领域,例如电商图文领域在小模型上是有显著提升的。
在说明界面,指明本次实验的support数据集有10万电商数据量(包括鞋子、衣服、裤子等物品),请问相比预训练的2亿数据,10w数据量做微调+蒸馏,实际训练时是仅用10w数据,还是10w数据+部分预训练数据啊?
10万是用作最后测试的数据集大小,预训练采用的是chineseclip的预训练,微调大约有千万量级的数据对。
这个对比图也有点疑问: 1、这个是先检测后调用的模型? 2、我们有试用蒸馏resnet50 吗? 3、我看我们不同模型最终特征的维度不一样,也可以蒸馏吗resnet50 1024、ViT-B-16 512, ViT-L-14 768?
10万是用作最后测试的数据集大小,预训练采用的是chineseclip的预训练,微调大约有千万量级的数据对。
淘宝的商品标题会堆叠很多词语,不想muge数据集那样简介,直接微调是否会导致性能下降?
您好,看到最新更新了知识蒸馏的功能,是否有蒸馏前后指标对比说明啊?