Open Soulscb opened 2 years ago
悟空大模型Vit_l_G,模型效果似乎不是很好,贵方有没有试过呢?
您指的是Wukong-ViT-L吗?我们在paper有验证过性能。您看一下加载的config是否则正确? 另外,Wukong-ViT-L采用的是细粒度对齐的训练,inference的时候每个patch和token都会参与计算,不是像CLIP一样只使用[CLS]作为图像和文本的global表征。
悟空大模型Vit_l_G,模型效果似乎不是很好,贵方有没有试过呢?