请问CLIPTokenizer和Chinese-CLIP中的什么对应呢？

OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.

MIT License

4.21k stars 439 forks source link

请问CLIPTokenizer和Chinese-CLIP中的什么对应呢？ #249

Open AnnyOrange opened 7 months ago

AnnyOrange commented 7 months ago

我好像没有找到Chinese-CLIP中的Tokenizer，请问是什么库和其对应呢？

yangapku commented 7 months ago

Chinese-CLIP github版本直接把分词器实现在本身代码中了哈，不需要引入外部其他库代码了

luohao123 commented 6 months ago

@yangapku 用transformers 里面的ChineseCLIP load之后，如何根据图片生成文字描述呢？

ChesonHuang commented 6 months ago

@yangapku 用transformers 里面的ChineseCLIP load之后，如何根据图片生成文字描述呢？

我研究了下，似乎没法直接生成文本描述，只能给定文本下进行预测。应该需要一个decoder来解码输出文本，真难啊

luohao123 commented 6 months ago

@ChesonHuang 在多模态出来之前，是怎么做的

ChesonHuang commented 6 months ago

@luohao123 我是新手。解决思路是：编写一个解码器，然后通过图片，生成对应文字的编码，通过解码器解码成中文，我也需要写这个解码器，有后续再说吧。类似于下面的例子https://github.com/huggingface/transformers/blob/5346db168481640d1ce18f464470b102993049e7/src/transformers/models/clvp/processing_clvp.py#L78