Closed jiangix-paper closed 2 years ago
进行Image Caption的inference,需要将数据格式调整为Oscar的能够接受的输入。可以参考Oscar项目中提供的下载链接,里面的Datasets部分,下载coco的数据,里面有对应的.yaml文件。 将图像转换为对应的格式,参考其test.yaml编写test_ch.yaml即可。
好的,非常感谢回复。按照这个说明,我目前已经跑通了下图中的命令: 跑完之后,我在输出文件夹中看到的输出文件是这样的: 想问一下,输出这三个文件是说明以上命令运行成功了吗?接下来要怎么将这些文件作为mengzi-oscar的输入呢?非常感谢
好的,非常感谢回复。按照这个说明,我目前已经跑通了下图中的命令: 跑完之后,我在输出文件夹中看到的输出文件是这样的: 想问一下,输出这三个文件是说明以上命令运行成功了吗?接下来要怎么将这些文件作为mengzi-oscar的输入呢?非常感谢
是的,predictions.tsv保存了目标检测的结果。需要参照mengzi-oscar的输入格式,写个脚本将predictions.tsv里的object tags与image features分割开,调整成输入格式即可,并不复杂。同时注意将tags利用词表进行英到中的转换。
嗯嗯。想再跟您确认一下。我使用的是这个项目中已经处理好的tsv文件 然后,我下载了预训练模型vinvl_vg_x152c4.pth和labelmap文件。在执行上述命令的时候,我将MODEL.WEIGHT目录改为预训练文件所在的目录,将DATA_DIR改为tsv文件所在的文件夹,OUTPUT_DIR改成自己新建的一个输出文件夹。同时,将vinvl_x152c4.yaml文件中相关配置项做了如下修改:
然后,运行test_sg_net.py文件。就生成了predictions.tsv文件。我生成的tsv文件打开后是这样的:
请问这个文件是否正确?如果要提取object tags的话,是其中的哪个字段呀?还有一个提取feature的话是不是提取文件中这一串字符就可以呢?还是需要借助predictions.pth呢?非常感谢您的耐心回复
嗯嗯。想再跟您确认一下。我使用的是这个项目中已经处理好的tsv文件 然后,我下载了预训练模型vinvl_vg_x152c4.pth和labelmap文件。在执行上述命令的时候,我将MODEL.WEIGHT目录改为预训练文件所在的目录,将DATA_DIR改为tsv文件所在的文件夹,OUTPUT_DIR改成自己新建的一个输出文件夹。同时,将vinvl_x152c4.yaml文件中相关配置项做了如下修改:
然后,运行test_sg_net.py文件。就生成了predictions.tsv文件。我生成的tsv文件打开后是这样的:
请问这个文件是否正确?如果要提取object tags的话,是其中的哪个字段呀?还有一个提取feature的话是不是提取文件中这一串字符就可以呢?还是需要借助predictions.pth呢?非常感谢您的耐心回复
1、文件是没问题的,你可以根据原始图片检查一下predictions.tsv里每个object的class是否在图片里有对应的物体。 2、进行caption的inference时,mengzi-oscar的输入分成了两部分,一个.label.tsv文件保存object tags,另一个.feature.tsv保存features,提取码(ehte)是这两个文件的简单demo以及test_ch.yaml,你可以参照格式,将自己的predictions.tsv进行拆分转换,需要注意两点:(1)predictions.tsv原始的物体class是英文的,要转换为中文(利用提供的dict),(2)predictions.tsv里的feature是base64编码的2048维向量,没有添加最后6为的位置信息,要添加。 3、不需要借助predictions.pth
好的,我这边检查到object中class是在图片中有对应物体,说明识别的没问题。还有几个问题需要麻烦您一下: 1)英文标签转化为中文的,这个链接好像已经失效了,可否麻烦提供一份转化列表 2)我看您给的wenlan.feature.tsv中feature向量,我理解是将一张图片中所有feature的base64编码进行了组合,请问您说的6位的位置信息是指?请问这个要咋添加呀? 3)我看test_ch.yaml文件中只需要提供四个tsv文件,没有相关的lineidx文件,请问lineidx文件在此处是否是不需要的,如果需要的话,想请问一下这个lineidx文件是如何生成的?
或者可否麻烦您提供一下实例wenlan中的predictions.tsv,我这边自己研究一下如何构建6位编码信息~,非常感谢~
好的,我这边检查到object中class是在图片中有对应物体,说明识别的没问题。还有几个问题需要麻烦您一下: 1)英文标签转化为中文的,这个链接好像已经失效了,可否麻烦提供一份转化列表 2)我看您给的wenlan.feature.tsv中feature向量,我理解是将一张图片中所有feature的base64编码进行了组合,请问您说的6位的位置信息是指?请问这个要咋添加呀? 3)我看test_ch.yaml文件中只需要提供四个tsv文件,没有相关的lineidx文件,请问lineidx文件在此处是否是不需要的,如果需要的话,想请问一下这个lineidx文件是如何生成的?
或者可否麻烦您提供一下实例wenlan中的predictions.tsv,我这边自己研究一下如何构建6位编码信息~,非常感谢~
1、code里有个chinese_label.json文件,dict就是这个 2、位置信息是指一个物体的目标检测结果,会有一个4维的bounding box [x1, y1, x2, y2](左上右下坐标), 用来说明它在图像里的位置。需要将其拓展为6维。假设图像宽、高为W, H,这6维是这样[x1/W, y1/H, x2/W, y2/H, (x2-x1)/W, ( y2-y1)/H],图像的宽高在输入目标检测模型的train.hw.tsv文件里有保存。 你可以尝试一下把位置编码加入,实现格式转换。如果不行,我们后续考虑整理下转换代码,提供一下。 3、lineidx文件需要。是用来按行读取tsv文件的,每一个tsv文件都有对应的lineidx文件。它是在把数据写入tsv文件时生成的。 4、predictions.tsv,其实跟你生成的predictions.tsv数据格式上是一样的。
您好。我使用下列代码尝试将每个bbox中feature的base64编码进行解码得到向量,
解码出的向量是8192(20484)维的。同时将您给的predictions.tsv和wenlan.feature.tsv进行对比,对于一张图片的最终feature,假设向量维度是y,我发现y=(2048 + 6)4*num(bbox)。这边想请问为什么需要乘以4呢,如果这样的话,我是不是对于6维的位置向量也需要扩展4倍成为24维的呢?具体扩展的逻辑是直接复制四份嘛?好像如果不乘4,两个文件的维度无法对应。
还有一个问题,请问是不是最终输到mengzi-oscar模型的数据,就是包含您给的test_ch.yaml中这几个文件及其对应的lineidx文件,一共是八个文件?
非常感谢!
您好,可否方便提供一份完整的用于图生文的数据集(包含yaml以及对应的tsv和lineidx文件) 不知道shi'bu's是不是caption写的有问题,程序在运行的时候会报这个错:
希望能提供一份完整的用于图生文测试的数据集,非常感谢
您好,可否方便提供一份完整的用于图生文的数据集(包含yaml以及对应的tsv和lineidx文件) 不知道shi'bu's是不是caption写的有问题,程序在运行的时候会报这个错:
希望能提供一份完整的用于图生文测试的数据集,非常感谢
抱歉,没跟你说明白,只是做inference的话self.key2captions是不需要的,你可以直接把73行注释掉试下。
您好。我使用下列代码尝试将每个bbox中feature的base64编码进行解码得到向量,
解码出的向量是8192(2048*4)维的。同时将您给的predictions.tsv和wenlan.feature.tsv进行对比,对于一张图片的最终feature,假设向量维度是y,我发现y=(2048 + 6)_4_num(bbox)。这边想请问为什么需要乘以4呢,如果这样的话,我是不是对于6维的位置向量也需要扩展4倍成为24维的呢?具体扩展的逻辑是直接复制四份嘛?好像如果不乘4,两个文件的维度无法对应。
还有一个问题,请问是不是最终输到mengzi-oscar模型的数据,就是包含您给的test_ch.yaml中这几个文件及其对应的lineidx文件,一共是八个文件?
非常感谢!
不知道你代码里的img_raw_base64是怎么获得的,是把wenlan.feature.tsv里所有的用base64编码的信息拼到了一起吗?如果是这样,那么你说的4应该是4张图片,wenlan.feature.tsv里包含了4张图片的信息,对于一张图片,用frombuffer解码之后的维度应该是2054*num(bbox)的,你可以reshape成【2056,num_box】 如果你下载了oscar的源码,可以用TSVFile(from utils.tsv_file import TSVFile)来读取tsv文件。
好的,我这边已经调试通过了,非常感谢
test_ch.yaml 的百度网盘链接失效了,可以再提供一下吗?谢谢
请问 mengzi-oscar-base-caption 具体如何载入,
python -m torch.distributed.launch --nproc_per_node=8 oscar/run_captioning.py --data_dir --do_test --test_yaml test_ch.yaml --num_beams 5 --per_gpu_eval_batch_size 128 --max_gen_length 20 --eval_model_dir
中的 eval_model_dir 后面接 https://huggingface.co/Langboat/mengzi-oscar-base-caption/tree/main 下载的目录吗
好的,我这边已经调试通过了,非常感谢
您好,我看见你似乎使用到了vinvl_vg_x152c4.pth的预训练模型,请问你还有这份模型文件吗?官方的链接进不去
您好,多模态oscar模型,在acc-icc数据集进行推理的时候,采用语句是: python -m torch.distributed.launch --nproc_per_node=8 oscar/run_captioning.py \ --data_dir \
--do_test --test_yaml test_ch.yaml \
--num_beams 5 --per_gpu_eval_batch_size 128 --max_gen_length 20 \
--eval_model_dir
请问test_ch.yaml文件是位于哪里呢