OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.
MIT License
4.21k stars 439 forks source link

请问CLIPTokenizer和Chinese-CLIP中的什么对应呢? #249

Open AnnyOrange opened 7 months ago

AnnyOrange commented 7 months ago

我好像没有找到Chinese-CLIP中的Tokenizer,请问是什么库和其对应呢?

yangapku commented 7 months ago

Chinese-CLIP github版本直接把分词器实现在本身代码中了哈,不需要引入外部其他库代码了

luohao123 commented 6 months ago

@yangapku 用transformers 里面的ChineseCLIP load之后,如何根据图片生成文字描述呢?

ChesonHuang commented 6 months ago

@yangapku 用transformers 里面的ChineseCLIP load之后,如何根据图片生成文字描述呢?

我研究了下,似乎没法直接生成文本描述,只能给定文本下进行预测。应该需要一个decoder来解码输出文本,真难啊

luohao123 commented 6 months ago

@ChesonHuang 在多模态出来之前,是怎么做的

ChesonHuang commented 6 months ago

@luohao123 我是新手。解决思路是:编写一个解码器,然后通过图片,生成对应文字的编码,通过解码器解码成中文,我也需要写这个解码器,有后续再说吧。类似于下面的例子https://github.com/huggingface/transformers/blob/5346db168481640d1ce18f464470b102993049e7/src/transformers/models/clvp/processing_clvp.py#L78