How to capture the caption of images

ksOAn6g5 / TaiSu

TaiSu（太素）--a large-scale Chinese multimodal dataset（亿级大规模中文视觉语言预训练数据集）

Other

172 stars 11 forks source link

How to capture the caption of images #6

Open sudabai666 opened 1 year ago

sudabai666 commented 1 year ago

代码中只有下载图片相关的代码，请问图片对应的caption 是怎么获取的？

ksOAn6g5 commented 1 year ago

有提供文本文件。请看readme.

ksOAn6g5 commented 1 year ago

似乎你是在问如何爬取文本，我们只提供了根据图片链接下载图片的脚本。没有提供爬取图片链接和文本的脚本。
太素的全部数据都可以直接通过网盘下载，不需要自己爬取。

sudabai666 commented 1 year ago

已经在下载相关的数据了，非常感谢开源如此珍贵的数据。

我对获取图片对应文本的方法，比较好奇，想进一步了解一下，希望提供一些关于获取图片对应文本更细节的内容？

yoyoo333 commented 1 year ago

The data set has a filtered_captions.txt file, and one column of it is id, which can be associated with the name of the image through this id, so that it can be matched.

aries-young commented 1 year ago

请问除了百度云有其他的脚本下载方式吗，我这边 bypy 的连接非常不稳定

ksOAn6g5 commented 1 year ago

请问除了百度云有其他的脚本下载方式吗，我这边 bypy 的连接非常不稳定

暂时没有。

MingsYang commented 1 year ago

有个图文相似性的问题请教下： 1.看到论文里会用OFA large获取caption，再通过机器翻译转成中文，最后再去做图文相似性过滤，不知道这个流程我理解的是否有问题 2.生成caption是自回归的过程吗，这样效率会是瓶颈吗，毕竟自回归太慢了，出的token数越多，循环次数越多

ksOAn6g5 commented 1 year ago

有个图文相似性的问题请教下： 1.看到论文里会用OFA large获取caption，再通过机器翻译转成中文，最后再去做图文相似性过滤，不知道这个流程我理解的是否有问题 2.生成caption是自回归的过程吗，这样效率会是瓶颈吗，毕竟自回归太慢了，出的token数越多，循环次数越多

是自回归的。目前做image capitioning 主要的方法就是自回归模型。确实需要比较多的计算资源。

MingsYang commented 1 year ago

有个图文相似性的问题请教下： 1.看到论文里会用OFA large获取caption，再通过机器翻译转成中文，最后再去做图文相似性过滤，不知道这个流程我理解的是否有问题 2.生成caption是自回归的过程吗，这样效率会是瓶颈吗，毕竟自回归太慢了，出的token数越多，循环次数越多

是自回归的。目前做image capitioning 主要的方法就是自回归模型。确实需要比较多的计算资源。

那过滤这么多数据大概用了多少计算资源和时间啊，方便告知吗，另外有尝试过非自回归的过滤方法吗，比如用多模态大语言模型走teacher forcing的方式走前向输出，根据loss划阈值过滤

MingsYang commented 1 year ago

请问除了百度云有其他的脚本下载方式吗，我这边 bypy 的连接非常不稳定

暂时没有。

@ksOAn6g5 @aries-young 请问下用bypy下载的正常速度是多少啊，我这边开了会员下载还只有1.x M/s，这数据量不知道要下到什么时候去

YulongBonjour commented 1 year ago

请问除了百度云有其他的脚本下载方式吗，我这边 bypy 的连接非常不稳定

暂时没有。

@ksOAn6g5 @aries-young 请问下用bypy下载的正常速度是多少啊，我这边开了会员下载还只有1.x M/s，这数据量不知道要下到什么时候去开多个线程会不会快一点。我们这边上传大概花了一周多。

zhongtao93 commented 9 months ago

请问总数据量大概是多少G呀