Closed huhuhuqia closed 1 year ago
您好,我们直接使用的谷歌bert官方的分词器词表和代码(WordpieceTokenizer),对于中文文本一般是分为单字。您可以参考代码中相关部分实现https://github.com/OFA-Sys/Chinese-CLIP/blob/2c38d03557e50eadc72972b272cebf840dbc34ea/cn_clip/clip/bert_tokenizer.py#L166
WordpieceTokenizer
请问有没有c++版本的实现?
您好,我们直接使用的谷歌bert官方的分词器词表和代码(
WordpieceTokenizer
),对于中文文本一般是分为单字。您可以参考代码中相关部分实现https://github.com/OFA-Sys/Chinese-CLIP/blob/2c38d03557e50eadc72972b272cebf840dbc34ea/cn_clip/clip/bert_tokenizer.py#L166