OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.
MIT License
4.5k stars 464 forks source link

vocab.txt词表是怎样得到的? #121

Closed mensaochun closed 1 year ago

mensaochun commented 1 year ago

请问cn_clip/clip/vocab.txt是如何得到的?看到里面有部分英文字词,但是不多,这个和bert的vocab.txt是什么关系?

yangapku commented 1 year ago

您好,我们的词表与谷歌官方的中文bert是一致的。具体来说,我们的模型文本侧由讯飞中文roberta初始化,而他们的中文roberta词表就是选用的谷歌官方的中文bert词表,所以和谷歌官方一样哈。