ksOAn6g5 / TaiSu

TaiSu(太素)--a large-scale Chinese multimodal dataset(亿级大规模中文视觉语言预训练数据集)
Other
172 stars 11 forks source link

How to capture the caption of images #6

Open sudabai666 opened 1 year ago

sudabai666 commented 1 year ago

代码中只有下载图片相关的代码,请问图片对应的caption 是怎么获取的?

ksOAn6g5 commented 1 year ago

有提供文本文件。请看readme.

ksOAn6g5 commented 1 year ago

似乎你是在问如何爬取文本,我们只提供了根据图片链接下载图片的脚本。没有提供爬取图片链接和文本的脚本。
太素的全部数据都可以直接通过网盘下载,不需要自己爬取。

sudabai666 commented 1 year ago

已经在下载相关的数据了,非常感谢开源如此珍贵的数据 。

我对获取图片对应文本的方法,比较好奇,想进一步了解一下,希望提供一些关于获取图片对应文本更细节的内容?

yoyoo333 commented 1 year ago

The data set has a filtered_captions.txt file, and one column of it is id, which can be associated with the name of the image through this id, so that it can be matched.

aries-young commented 1 year ago

请问除了百度云有其他的脚本下载方式吗,我这边 bypy 的连接非常不稳定

ksOAn6g5 commented 1 year ago

请问除了百度云有其他的脚本下载方式吗,我这边 bypy 的连接非常不稳定

暂时没有。

MingsYang commented 1 year ago

有个图文相似性的问题请教下: 1.看到论文里会用OFA large获取caption,再通过机器翻译转成中文,最后再去做图文相似性过滤,不知道这个流程我理解的是否有问题 2.生成caption是自回归的过程吗,这样效率会是瓶颈吗,毕竟自回归太慢了,出的token数越多,循环次数越多

ksOAn6g5 commented 1 year ago

有个图文相似性的问题请教下: 1.看到论文里会用OFA large获取caption,再通过机器翻译转成中文,最后再去做图文相似性过滤,不知道这个流程我理解的是否有问题 2.生成caption是自回归的过程吗,这样效率会是瓶颈吗,毕竟自回归太慢了,出的token数越多,循环次数越多

是自回归的。目前做image capitioning 主要的方法就是自回归模型。确实需要比较多的计算资源。

MingsYang commented 1 year ago

有个图文相似性的问题请教下: 1.看到论文里会用OFA large获取caption,再通过机器翻译转成中文,最后再去做图文相似性过滤,不知道这个流程我理解的是否有问题 2.生成caption是自回归的过程吗,这样效率会是瓶颈吗,毕竟自回归太慢了,出的token数越多,循环次数越多

是自回归的。目前做image capitioning 主要的方法就是自回归模型。确实需要比较多的计算资源。

那过滤这么多数据大概用了多少计算资源和时间啊,方便告知吗,另外有尝试过非自回归的过滤方法吗,比如用多模态大语言模型走teacher forcing的方式走前向输出,根据loss划阈值过滤

MingsYang commented 1 year ago

请问除了百度云有其他的脚本下载方式吗,我这边 bypy 的连接非常不稳定

暂时没有。

@ksOAn6g5 @aries-young 请问下用bypy下载的正常速度是多少啊,我这边开了会员下载还只有1.x M/s,这数据量不知道要下到什么时候去

YulongBonjour commented 1 year ago

请问除了百度云有其他的脚本下载方式吗,我这边 bypy 的连接非常不稳定

暂时没有。

@ksOAn6g5 @aries-young 请问下用bypy下载的正常速度是多少啊,我这边开了会员下载还只有1.x M/s,这数据量不知道要下到什么时候去 开多个线程会不会快一点。 我们这边上传大概花了一周多。

zhongtao93 commented 9 months ago

请问总数据量大概是多少G呀