请问您用的是什么分词器？

OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.

MIT License

4.48k stars 462 forks source link

请问您用的是什么分词器？ #129

Closed huhuhuqia closed 1 year ago

yangapku commented 1 year ago

您好，我们直接使用的谷歌bert官方的分词器词表和代码（WordpieceTokenizer），对于中文文本一般是分为单字。您可以参考代码中相关部分实现https://github.com/OFA-Sys/Chinese-CLIP/blob/2c38d03557e50eadc72972b272cebf840dbc34ea/cn_clip/clip/bert_tokenizer.py#L166

liumingzhu6060 commented 5 months ago

请问有没有c++版本的实现？