prepare_2020.py 难以理解

rrjia commented 4 years ago

没有看到从哪里输入AI city 2020的数据开始处理的，全程没有注释，请问是那个参数是输入数据？

layumi commented 4 years ago

你好，你可以看README 在 https://github.com/layumi/AICIty-reID-2020/tree/master/pytorch 感谢～从prepare开始处理数据只要把下载的数据放在data文件夹下就行

rrjia commented 4 years ago

官方数据有两个：AIC20_ReID和AIC20_ReID_Simulation；其中AIC20ReID中的图片文件名是没有下划线的，但是我看代码中是对 /data/pytorch2020/2020AICITY 中所有的图片进行split("")取id，所以没有太明白，是不是现在的数据格式和你们比赛的时候的不同了

layumi commented 4 years ago

抱歉，是我的问题，今年我用的是paddlepaddle 那边处理好的数据。链接是 https://github.com/PaddlePaddle/Research/tree/master/CV/PaddleReid/process_aicity_data 里面有预处理的东西，用来从xml中抽取 ID camID

layumi commented 4 years ago

@rrjia 如果你还遇到任何数据问题，问就好，真的感谢～～～另外，处理数据的同学@miraclebiu 也会回答你的问题～～

rrjia commented 4 years ago

File "train_2020.py", line 561, in copyfile('./train.py', dir_name+'/train.py')

FileNotFoundError: [Errno 2] No such file or directory: './train.py'

在源码中没有发现train.py ，请问这段代码可以注释嘛？

layumi commented 4 years ago

可以。这主要是为了防止多次改代码以后，忘记了设定，所以做的备份。你也可以改成 train_2020.py

感谢

rrjia commented 4 years ago

在test_2020.py 159行处： image_datasets = {x: datasets.ImageFolder( os.path.join(data_dir,x) ,data_transforms) for x in ['gall','query']} 输入应该是gallery和query两个文件夹，但是在prepare_2020.py中却没有生成gallery数据集，但是下面注释掉代码显示将train_real_save_path链接为gallery_large，请问是否将test_2020中的gallery修改为gallery_large，然后prepare_2020.py最后三行注释掉的代码取消注释生成gallery_large数据集就可以了？

layumi commented 4 years ago

嗯，是的。validation时候我们采用的gallery 是所有real的训练集。

daiguangzhao commented 4 years ago

在test_2020.py 159行处： image_datasets = {x: datasets.ImageFolder( os.path.join(data_dir,x) ,data_transforms) for x in ['gall','query']} 输入应该是gallery和query两个文件夹，但是在prepare_2020.py中却没有生成gallery数据集，但是下面注释掉代码显示将train_real_save_path链接为gallery_large，请问是否将test_2020中的gallery修改为gallery_large，然后prepare_2020.py最后三行注释掉的代码取消注释生成gallery_large数据集就可以了？

你好，兄弟，我已经按照你的方式去改了，但是在pytest时候报错 test_2020.py:None (test_2020.py) test_2020.py:59: in opt = parser.parse_args() ../../../anaconda3/lib/python3.7/argparse.py:1758: in parseargs self.error(msg % ' '.join(argv)) ../../../anaconda3/lib/python3.7/argparse.py:2508: in error self.exit(2, ('%(prog)s: error: %(message)s\n') % args) ../../../anaconda3/lib/python3.7/argparse.py:2495: in exit _sys.exit(status) E SystemExit: 2 collected 0 items / 1 error

chenxyyy commented 4 years ago

@layumi 郑博士你好，请问一下label.mat在哪里？？是算法生成的吗？我并没有找到啊？

layumi commented 4 years ago

@chenxyyy 这个label是之前产生的pseudo label 用不到，你可以skip这一部分。

layumi commented 4 years ago

@daiguangzhao 这个错有点奇怪。。。是opt = parser.parse_args() ？这边没有import 么？

s20163081161 commented 4 years ago

@layumi 郑博士你好，我按照你给的paddlepaddle 预处理数据的那个连接进去，里边的2_prepare_syn_trainlist.py文件，有'colorID'，'typeID'，'orientation'这三个Item，但是我在train_label_utf8.xml文件中并没有找到这几个Item啊？

miraclebiu commented 4 years ago

@layumi 郑博士你好，我按照你给的paddlepaddle 预处理数据的那个连接进去，里边的2_prepare_syn_trainlist.py文件，有'colorID'，'typeID'，'orientation'这三个Item，但是我在train_label_utf8.xml文件中并没有找到这几个Item啊？

syn使用的和real使用的xml不是同一个xml文件，需要对应数据集读取处理

rrjia commented 4 years ago

'colorID'，'typeID'，'orientation'这三个Item 只有 AIC20_ReID_Simulation文件夹仿真生成的数据中才有，AIC20_ReID文件夹下数据中没有，对真实数据和生成数据要分别调用1_convert.py ，AIC20_ReID_Simulation文件夹下也有一个train_label.xml，然后在使用2_prepare_syn_trainlist.py处理仿真合成的数据，2_prepare_real_trainlist.py处理AIC20_ReID文件夹下的真实数据

rrjia commented 4 years ago

在test_2020.py 159行处： image_datasets = {x: datasets.ImageFolder( os.path.join(data_dir,x) ,data_transforms) for x in ['gall','query']} 输入应该是gallery和query两个文件夹，但是在prepare_2020.py中却没有生成gallery数据集，但是下面注释掉代码显示将train_real_save_path链接为gallery_large，请问是否将test_2020中的gallery修改为gallery_large，然后prepare_2020.py最后三行注释掉的代码取消注释生成gallery_large数据集就可以了？

你好，兄弟，我已经按照你的方式去改了，但是在pytest时候报错 test_2020.py:None (test_2020.py) test_2020.py:59: in opt = parser.parse_args() ../../../anaconda3/lib/python3.7/argparse.py:1758: in parseargs self.error(msg % ' '.join(argv)) ../../../anaconda3/lib/python3.7/argparse.py:2508: in error self.exit(2, ('%(prog)s: error: %(message)s\n') % args) ../../../anaconda3/lib/python3.7/argparse.py:2495: in exit _sys.exit(status) E SystemExit: 2 collected 0 items / 1 error

这个问题我没有遇到过，你是不是应该首先train_2020.py

s20163081161 commented 4 years ago

@layumi @rrjia 多谢两位。想再请教一下，prepare_2020.py里的这句代码“if int(ID[0])<=666:”，意思是ID小于666的都是真实数据，而大于666的都是生成数据吗？可我看真实数据集和生成数据集的ID都是从1开始的啊？感觉应该不是那样？

rrjia commented 4 years ago

AIC20_ReID文件夹下有个readme.txt

%**% % The AIC20 benchmark is captured by 40 cameras in real-world traffic surveillance environment. % % A total of 666 vehicles are annotated. 333 vehicles are used for training. The remaining 333 vehicles are for % % testing. % % There are 56277 images in total. 18290 images are in the test set, and 36935 images are in the training set. % %**%

rrjia commented 4 years ago

@layumi @rrjia 多谢两位。想再请教一下，prepare_2020.py里的这句代码“if int(ID[0])<=666:”，意思是ID小于666的都是真实数据，而大于666的都是生成数据吗？可我看真实数据集和生成数据集的ID都是从1开始的啊？感觉应该不是那样？

然后2_prepare_syn_trainlist.py 18行有一个d_start = 666，强行将模拟的数据的车辆id从666开始编号，改变了原始的车辆id

s20163081161 commented 4 years ago

@layumi @rrjia 多谢两位。想再请教一下，prepare_2020.py里的这句代码“if int(ID[0])<=666:”，意思是ID小于666的都是真实数据，而大于666的都是生成数据吗？可我看真实数据集和生成数据集的ID都是从1开始的啊？感觉应该不是那样？

然后2_prepare_syn_trainlist.py 18行有一个d_start = 666，强行将模拟的数据的车辆id从666开始编号，改变了原始的车辆id

但是我看到真实数据集好像只有478个，并没有666个？？

miraclebiu commented 4 years ago

@layumi @rrjia 多谢两位。想再请教一下，prepare_2020.py里的这句代码“if int(ID[0])<=666:”，意思是ID小于666的都是真实数据，而大于666的都是生成数据吗？可我看真实数据集和生成数据集的ID都是从1开始的啊？感觉应该不是那样？然后2_prepare_syn_trainlist.py 18行有一个d_start = 666，强行将模拟的数据的车辆id从666开始编号，改变了原始的车辆id

但是我看到真实数据集好像只有478个，并没有666个？？

我们这样做的目的只是为了方便，另外加上query test上的id就是666了，真实集上的478不是连续的，具体的你可以参考https://www.aicitychallenge.org/2020-faqs/

s20163081161 commented 4 years ago

@layumi @rrjia 多谢两位。想再请教一下，prepare_2020.py里的这句代码“if int(ID[0])<=666:”，意思是ID小于666的都是真实数据，而大于666的都是生成数据吗？可我看真实数据集和生成数据集的ID都是从1开始的啊？感觉应该不是那样？然后2_prepare_syn_trainlist.py 18行有一个d_start = 666，强行将模拟的数据的车辆id从666开始编号，改变了原始的车辆id

但是我看到真实数据集好像只有478个，并没有666个？？

我们这样做的目的只是为了方便，另外加上query test上的id就是666了，真实集上的478不是连续的，具体的你可以参考https://www.aicitychallenge.org/2020-faqs/

好的

daiguangzhao commented 4 years ago

嗯，是的。validation时候我们采用的gallery 是所有real的训练集。

@daiguangzhao 这个错有点奇怪。。。是opt = parser.parse_args() ？这边没有import 么？您好， Train Model python train_2020.py --name SE_imbalance_s1_384_p0.5_lr2_mt_d0_b24+v+aug --warm_epoch 5 --droprate 0 --stride 1 --erasing_p 0.5 --autoaug --inputsize 384 --lr 0.02 --use_SE --gpu_ids 0,1,2 --train_virtual --batchsize 24; 中这个是哪个网络name SE_imbalance_s1_384_p0.5_lr2_mt_d0_b24+v+aug，对应论文哪里呀？此外，我显存是８Ｇ的，一天一夜才跑了６个epoch，这正常吗．．．．想哭了

daiguangzhao commented 4 years ago

@layumi @rrjia 多谢两位。想再请教一下，prepare_2020.py里的这句代码“if int(ID[0])<=666:”，意思是ID小于666的都是真实数据，而大于666的都是生成数据吗？可我看真实数据集和生成数据集的ID都是从1开始的啊？感觉应该不是那样？然后2_prepare_syn_trainlist.py 18行有一个d_start = 666，强行将模拟的数据的车辆id从666开始编号，改变了原始的车辆id 但是我看到真实数据集好像只有478个，并没有666个？？我们这样做的目的只是为了方便，另外加上query test上的id就是666了，真实集上的478不是连续的，具体的你可以参考https://www.aicitychallenge.org/2020-faqs/

好的这个意思应该是一共有６６６车被标注，但是不一定有６６６个种类的车

daiguangzhao commented 4 years ago

你好，你可以看README 在 https://github.com/layumi/AICIty-reID-2020/tree/master/pytorch 感谢～从prepare开始处理数据只要把下载的数据放在data文件夹下就行

您好，这个问题困扰我很久．在官网下载的真实数据集中有train_label.xml，我们可以利用

你好，你可以看README 在 https://github.com/layumi/AICIty-reID-2020/tree/master/pytorch 感谢～从prepare开始处理数据只要把下载的数据放在data文件夹下就行

抱歉，是我的问题，今年我用的是paddlepaddle 那边处理好的数据。链接是 https://github.com/PaddlePaddle/Research/tree/master/CV/PaddleReid/process_aicity_data 里面有预处理的东西，用来从xml中抽取 ID camID

您好，在官网下载的真实数据集有train_lable.xml的文件，我们可以利用Research/CV/PaddleReid/process_aicity_data/的方法去处理train的数据，在您的prepare_2020.py文件的第２９－３２行中生成的train_real_all应该是真实数据集中所有６６６辆车包括（The ranges of the training IDs are: 1-95 & 241-478

The ranges of the testing IDs are: 96-240 & 479-666），但是却没有生成．在原数据集中的image_query和image_test并没有被处理成标准形式．您推荐的那个处理数据的网址并没有这部分的内容，麻烦！

layumi commented 4 years ago

@daiguangzhao 你好。你说的是测试集image_query和image_test本来就没有label啊。。是比赛要用的。如果你要验证结果，可以把模型的预测提交到官网（看submit py）；或者你使用我划的validation来验证，可以使用test py

daiguangzhao commented 4 years ago

@daiguangzhao 你好。你说的是测试集image_query和image_test本来就没有label啊。。是比赛要用的。如果你要验证结果，可以把模型的预测提交到官网（看submit py）；或者你使用我划的validation来验证，可以使用test py

不好意思，郑博士，我理解错了！是不是可以这样理解，官网给的真实数据集中，我们的代码仅仅只是用到了image_trian的３６９３５张图片，而您在prepare_2020中只是对原数据集中image_train进行划分，依次是train_real_all(36395); train; query; gallery_large

layumi commented 4 years ago

@daiguangzhao 是的。 train_real_all 是 36395

s20163081161 commented 4 years ago

在test_2020.py 159行处： image_datasets = {x: datasets.ImageFolder( os.path.join(data_dir,x) ,data_transforms) for x in ['gall','query']} 输入应该是gallery和query两个文件夹，但是在prepare_2020.py中却没有生成gallery数据集，但是下面注释掉代码显示将train_real_save_path链接为gallery_large，请问是否将test_2020中的gallery修改为gallery_large，然后prepare_2020.py最后三行注释掉的代码取消注释生成gallery_large数据集就可以了？

@layumi @rrjia 是不是直接把train_real_save_path路径下的图片拷贝到gallery，而不用取消这三行注释也可以？

layumi / AICIty-reID-2020

prepare_2020.py 难以理解 #7