Closed syf-fgnb closed 6 months ago
你好,感谢对我们项目的关注!
playground/data/ScienceQA
中sa000000
-sa000063
llava_v1_5_mix665k_asmv2_format.json
,Stage2的预训练的一部分数据是as_pretrain_10m.json
(此外还用到了CC12M中的5M样本和GRiT中的15M样本),Stage2的微调用的是as_mix_4m.json
。其余的rec_xxx.json
都是AS-V2
的数据,这些数据已经包含在了as_mix_4m.json
,单独放出来是为了方便大家单独使用这部分数据。感谢回复,
playground/data
下的,即playground/data/share_textvqa
sam/images
是sharegpt4v用的sam图像(参考他们的github进行配置),其他的则是AS-Core用到的图像(下载SA-1B的图像放过去即可)as_mix_4m.json
里都写成相对路径了关于图像位置的配置,一种简单的方案是写一个脚本判断一下as_mix_4m.json
中的图像是否都存在,看一下那些不存在的图像是哪个数据集的,然后对应的补上即可
import os
import json
from collections import defaultdict
base_dir = playground/data/'
ann_path = 'as_mix_4m.json'
with open(ann_path) as file:
ann = json.load(file)
start_idx = 0
not_exist_path = defaultdict(int)
info = defaultdict(int)
for idx, item in enumerate(ann[start_idx:], start=start_idx):
if 'image' not in item:
continue
image = item['image']
exist = os.path.exists(os.path.join(base_dir))
if not exist:
info['not_exist'] += 1
not_exist_path['/'.join(image.split('/')[:-2])] += 1
if idx % 10000 == 0 and check:
print()
print(idx)
for k, v in info.items():
print(k, v)
for k, v in not_exist_path.items():
print(k, v)
for k, v in info.items():
print(k, v)
for k, v in not_exist_path.items():
print(k, v)
print('finish')
你好,关于AS-v2的stage2数据集准备,有几个点有一些不确定,还望解惑:
谢谢