have you tried to train a vit-b/32 model?

OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.

MIT License

4.5k stars 464 forks source link

Closed ldfandian closed 1 year ago

ldfandian commented 1 year ago

From openai paper, it looks to have the same inference speed as rn50 and better accuracy performance. Any plan to train and public a vit-b/32 model?

yangapku commented 1 year ago

Hi, currently we haven't prepared such a model scale nor have a plan for pretrain it.