Closed ldfandian closed 1 year ago
您好,这几个问题,我们大概的看法可能如下:
您好,这几个问题,我们大概的看法可能如下:
- 确实如此,Chinese-CLIP相对于CLIP本身基本是没有模型结构的显著变化的,所以我们主要的优势就是来自于使用中文原生的图文对预训练数据,以及中文Roberta用于初始化文本侧,来增强对于中文的处理能力
- 我们的Chinese-CLIP有不同规模,您可以选用我们最大的huge规模,我们的huge模型是ViT-H/14 + RoBERTa-wwm-ext-large的结构,文本侧的理解能力也更强
- "20 million high-quality internal image-test pairs"其实是我们内部从图虫网抓取的图片,因为属于公司内部抓取的业务数据,所以直接分享会有一些问题,您可以自己考虑抓取或者购买哈。总体来看,因为这部分数据量级还是较小,影响也不会特别大,整体还是LAION数据dominate
- 这部分能力我们初步采用零样本分类来评估,根据我们所汇报的零样本分类结果,整体的泛化性能还是可以的。您也可以通过我们在huggingface上面部署的零样本分类demo来手动评估下哈
感谢感谢~
您好,这几个问题,我们大概的看法可能如下:
- 确实如此,Chinese-CLIP相对于CLIP本身基本是没有模型结构的显著变化的,所以我们主要的优势就是来自于使用中文原生的图文对预训练数据,以及中文Roberta用于初始化文本侧,来增强对于中文的处理能力
- 我们的Chinese-CLIP有不同规模,您可以选用我们最大的huge规模,我们的huge模型是ViT-H/14 + RoBERTa-wwm-ext-large的结构,文本侧的理解能力也更强
- "20 million high-quality internal image-test pairs"其实是我们内部从图虫网抓取的图片,因为属于公司内部抓取的业务数据,所以直接分享会有一些问题,您可以自己考虑抓取或者购买哈。总体来看,因为这部分数据量级还是较小,影响也不会特别大,整体还是LAION数据dominate
- 这部分能力我们初步采用零样本分类来评估,根据我们所汇报的零样本分类结果,整体的泛化性能还是可以的。您也可以通过我们在huggingface上面部署的零样本分类demo来手动评估下哈
BTW,八卦一下,阿里最近裁员好猛啊,你们这帮兄弟们还好不?有么有看机会的~ 哈哈哈
您好,这几个问题,我们大概的看法可能如下:
- 确实如此,Chinese-CLIP相对于CLIP本身基本是没有模型结构的显著变化的,所以我们主要的优势就是来自于使用中文原生的图文对预训练数据,以及中文Roberta用于初始化文本侧,来增强对于中文的处理能力
- 我们的Chinese-CLIP有不同规模,您可以选用我们最大的huge规模,我们的huge模型是ViT-H/14 + RoBERTa-wwm-ext-large的结构,文本侧的理解能力也更强
- "20 million high-quality internal image-test pairs"其实是我们内部从图虫网抓取的图片,因为属于公司内部抓取的业务数据,所以直接分享会有一些问题,您可以自己考虑抓取或者购买哈。总体来看,因为这部分数据量级还是较小,影响也不会特别大,整体还是LAION数据dominate
- 这部分能力我们初步采用零样本分类来评估,根据我们所汇报的零样本分类结果,整体的泛化性能还是可以的。您也可以通过我们在huggingface上面部署的零样本分类demo来手动评估下哈
@yangapku 还有,图虫网爬照片,咱们是用 /api/search/image?term=???&page=???&size=??? 这个API的么?可以分享一下爬的关键词么?想学习看看图虫网这些数据有啥特别~
您好,这个具体我们也不太清楚哈,是集团内部的其他同学提供给我们的。但是这部分数据我理解只占很小部分,我们加进来当时也就是采样看了下质量可以接受,所以加入了,评估下来这部分也并不是必要的哈。
我学习了论文,我理解cn-clip的效果提升主要来自于: a) 中文数据集更多。LAION-5B、Wukong、Visual Genome、MSCOCO 和 20 million high-quality internal image-test pairs; b) 语言模型更强大。cn-clip用的是RoBERTa-wwm-ext and RBT3,而openai clip用的是Transformer (Vaswani et al., 2017)(63M-parameter 12-layer 512-wide model with 8 attention heads.),cn-clip稍稍强大一点~
我的问题是: