OFA-Sys / Chinese-CLIP

Chinese version of CLIP which achieves Chinese cross-modal retrieval and representation generation.
MIT License
4.5k stars 464 forks source link

请问一下cn-clip的论文理解和架构问题? #118

Closed ldfandian closed 1 year ago

ldfandian commented 1 year ago

我学习了论文,我理解cn-clip的效果提升主要来自于: a) 中文数据集更多。LAION-5B、Wukong、Visual Genome、MSCOCO 和 20 million high-quality internal image-test pairs; b) 语言模型更强大。cn-clip用的是RoBERTa-wwm-ext and RBT3,而openai clip用的是Transformer (Vaswani et al., 2017)(63M-parameter 12-layer 512-wide model with 8 attention heads.),cn-clip稍稍强大一点~

我的问题是:

  1. "openai clip + 把中文搜索词翻译成英文" vs "cn-clip+中文搜索词" 比较来看,绝大部分的性能提升都来自于上面的两个点,对吧?
  2. 理论上把RoBERTa-wwm-ext and RBT3升级成一个10b级别的语言模型,也许效果还能提升一大截吧?毕竟现在看来这个LLM实在是小了点,我猜测表达能力可能不太够?
  3. 能分享一下 "20 million high-quality internal image-test pairs" 么?便于大家来复现paper里的效果~ 如果缺少这个10%的internal数据,请问一下性能会下降多少?
  4. 对比openai clip,cn-clip带上更多中文数据集后,会影响到模型的泛化能力/鲁棒性么?
yangapku commented 1 year ago

您好,这几个问题,我们大概的看法可能如下:

  1. 确实如此,Chinese-CLIP相对于CLIP本身基本是没有模型结构的显著变化的,所以我们主要的优势就是来自于使用中文原生的图文对预训练数据,以及中文Roberta用于初始化文本侧,来增强对于中文的处理能力
  2. 我们的Chinese-CLIP有不同规模,您可以选用我们最大的huge规模,我们的huge模型是ViT-H/14 + RoBERTa-wwm-ext-large的结构,文本侧的理解能力也更强
  3. "20 million high-quality internal image-test pairs"其实是我们内部从图虫网抓取的图片,因为属于公司内部抓取的业务数据,所以直接分享会有一些问题,您可以自己考虑抓取或者购买哈。总体来看,因为这部分数据量级还是较小,影响也不会特别大,整体还是LAION数据dominate
  4. 这部分能力我们初步采用零样本分类来评估,根据我们所汇报的零样本分类结果,整体的泛化性能还是可以的。您也可以通过我们在huggingface上面部署的零样本分类demo来手动评估下哈
ldfandian commented 1 year ago

您好,这几个问题,我们大概的看法可能如下:

  1. 确实如此,Chinese-CLIP相对于CLIP本身基本是没有模型结构的显著变化的,所以我们主要的优势就是来自于使用中文原生的图文对预训练数据,以及中文Roberta用于初始化文本侧,来增强对于中文的处理能力
  2. 我们的Chinese-CLIP有不同规模,您可以选用我们最大的huge规模,我们的huge模型是ViT-H/14 + RoBERTa-wwm-ext-large的结构,文本侧的理解能力也更强
  3. "20 million high-quality internal image-test pairs"其实是我们内部从图虫网抓取的图片,因为属于公司内部抓取的业务数据,所以直接分享会有一些问题,您可以自己考虑抓取或者购买哈。总体来看,因为这部分数据量级还是较小,影响也不会特别大,整体还是LAION数据dominate
  4. 这部分能力我们初步采用零样本分类来评估,根据我们所汇报的零样本分类结果,整体的泛化性能还是可以的。您也可以通过我们在huggingface上面部署的零样本分类demo来手动评估下哈

感谢感谢~

ldfandian commented 1 year ago

您好,这几个问题,我们大概的看法可能如下:

  1. 确实如此,Chinese-CLIP相对于CLIP本身基本是没有模型结构的显著变化的,所以我们主要的优势就是来自于使用中文原生的图文对预训练数据,以及中文Roberta用于初始化文本侧,来增强对于中文的处理能力
  2. 我们的Chinese-CLIP有不同规模,您可以选用我们最大的huge规模,我们的huge模型是ViT-H/14 + RoBERTa-wwm-ext-large的结构,文本侧的理解能力也更强
  3. "20 million high-quality internal image-test pairs"其实是我们内部从图虫网抓取的图片,因为属于公司内部抓取的业务数据,所以直接分享会有一些问题,您可以自己考虑抓取或者购买哈。总体来看,因为这部分数据量级还是较小,影响也不会特别大,整体还是LAION数据dominate
  4. 这部分能力我们初步采用零样本分类来评估,根据我们所汇报的零样本分类结果,整体的泛化性能还是可以的。您也可以通过我们在huggingface上面部署的零样本分类demo来手动评估下哈

BTW,八卦一下,阿里最近裁员好猛啊,你们这帮兄弟们还好不?有么有看机会的~ 哈哈哈

ldfandian commented 1 year ago

您好,这几个问题,我们大概的看法可能如下:

  1. 确实如此,Chinese-CLIP相对于CLIP本身基本是没有模型结构的显著变化的,所以我们主要的优势就是来自于使用中文原生的图文对预训练数据,以及中文Roberta用于初始化文本侧,来增强对于中文的处理能力
  2. 我们的Chinese-CLIP有不同规模,您可以选用我们最大的huge规模,我们的huge模型是ViT-H/14 + RoBERTa-wwm-ext-large的结构,文本侧的理解能力也更强
  3. "20 million high-quality internal image-test pairs"其实是我们内部从图虫网抓取的图片,因为属于公司内部抓取的业务数据,所以直接分享会有一些问题,您可以自己考虑抓取或者购买哈。总体来看,因为这部分数据量级还是较小,影响也不会特别大,整体还是LAION数据dominate
  4. 这部分能力我们初步采用零样本分类来评估,根据我们所汇报的零样本分类结果,整体的泛化性能还是可以的。您也可以通过我们在huggingface上面部署的零样本分类demo来手动评估下哈

@yangapku 还有,图虫网爬照片,咱们是用 /api/search/image?term=???&page=???&size=??? 这个API的么?可以分享一下爬的关键词么?想学习看看图虫网这些数据有啥特别~

yangapku commented 1 year ago

您好,这个具体我们也不太清楚哈,是集团内部的其他同学提供给我们的。但是这部分数据我理解只占很小部分,我们加进来当时也就是采样看了下质量可以接受,所以加入了,评估下来这部分也并不是必要的哈。