checkpoint的结果和论文不一致

geek12138 commented 2 years ago

您好，

ViT-B/16 | frame 32 在论文里面是83.8%，但是github里面写的是82.32%，我用这个checkpoint跑出来的结果是81.3%。

ViT-B/32 | frame 8的结果貌似上传错了，这个文件名和测试结果和ViT-B/16 | frame 32 的一样。

icyzhang0923 commented 2 years ago

您好，

ViT-B/16 | frame 32 在论文里面是83.8%，但是github里面写的是82.32%，我用这个checkpoint跑出来的结果是81.3%。

ViT-B/32 | frame 8的结果貌似上传错了，这个文件名和测试结果和ViT-B/16 | frame 32 的一样。

83.8%是30crops的结果，但是作者似乎没有给30crops的测试脚本

sallymmx commented 2 years ago

您好，

ViT-B/16 | frame 32 在论文里面是83.8%，但是github里面写的是82.32%，我用这个checkpoint跑出来的结果是81.3%。

ViT-B/32 | frame 8的结果貌似上传错了，这个文件名和测试结果和ViT-B/16 | frame 32 的一样。

Please make sure that you use the right config yaml for testing, _k400test.yaml. Then change the input segments and model config.
If everything is right, that I guess the gap may come from the dataset discrepancy, since the number of videos of K400 varies all the time.
After your issue, we re-test our models (single-crop) using the published codes, results are as follows. No such a gap as you said happened.

geek12138 commented 2 years ago

您好，我检查了一下github上的结果和论文中single view是一致的，但是在用这个checkpoint测试出来的结果差距比较大。下面是我的test的yaml文件。在单张3090上跑的

pretrain: checkpoint/vit-16-32f_8232.pt # 81.31584 seed: 1024 data: dataset: kinetics400 modality: RGB num_segments: 32 seg_length: 1 split: 1 batch_size: 1 # 原始设置: gpus=4, batch_size: 64 workers: 8 gpus: 1 num_classes: 400 image_tmpl: '{}.jpg' val_list: 'data/kinetics400/kinetics_frame_val.txt' # label_list: 'data/kinetics400/kinetics_400_labels.csv' index_bias: 0 input_size: 224 random_shift: False network: arch: ViT-B/16 #ViT-B/32 ViT-B/16 init: True tsm: False drop_out: 0.0 emb_dropout: 0.0 bn_momentum: 0.1 consensus_type: avg type: clip_k400 sim_header: "Transf" #Transf meanP LSTM Conv_1D Transf_cls joint: False describe: ratio: 1 f_ratio: 10 logging: print_freq: 10 eval_freq: 1

geek12138 commented 2 years ago

您好， ViT-B/16 | frame 32 在论文里面是83.8%，但是github里面写的是82.32%，我用这个checkpoint跑出来的结果是81.3%。 ViT-B/32 | frame 8的结果貌似上传错了，这个文件名和测试结果和ViT-B/16 | frame 32 的一样。

83.8%是30crops的结果，但是作者似乎没有给30crops的测试脚本

谢谢回复，83.8果然是30 crops的结果，82.32是single view的

17Skye17 commented 2 years ago

中single view是一致的，但是在用这个checkpoint测试出来的结果差距比较大。下面是我的test的yaml文件。在单张3090上跑的

我的single crop测试结果vit16的8f,16f和32f都会比report的低1个点，不知是不是数据的问题。 ps.代码里test阶段drop last了可能会带来一些不一样

geek12138 commented 2 years ago

代码里test阶段drop last我试过去设置成Flase了，如果不设置的话，不同batch size下的测试跑出来的结果有可能会不一样。但是就算设置了还是低，讲道理应该不是数据的问题，因为我这里的数据去跑其它的github都是要略高一点点的

中single view是一致的，但是在用这个checkpoint测试出来的结果差距比较大。下面是我的test的yaml文件。在单张3090上跑的

我的single crop测试结果vit16的8f,16f和32f都会比report的低1个点，不知是不是数据的问题。 ps.代码里test阶段drop last了可能会带来一些不一样

17Skye17 commented 2 years ago

代码里test阶段drop last我试过去设置成Flase了，如果不设置的话，不同batch size下的测试跑出来的结果有可能会不一样。但是就算设置了还是低，讲道理应该不是数据的问题，因为我这里的数据去跑其它的github都是要略高一点点的

中single view是一致的，但是在用这个checkpoint测试出来的结果差距比较大。下面是我的test的yaml文件。在单张3090上跑的

我的single crop测试结果vit16的8f,16f和32f都会比report的低1个点，不知是不是数据的问题。 ps.代码里test阶段drop last了可能会带来一些不一样

您好，我也是这种情况，然后我仔细检查了一下repo里的val list，发现其中有一些和我的不一样（大约180个），不知道是不是这份val set的数据有点偏差：

tCKnYXne_o
H-Ww0gGDWU
Sam59CH5_o
blRZN-6_ZM
gxLOV_s9wU
Q2OO6q6-iM
I3_52Xh7oU
sSTHZHHp-c
l309dqYR-8
ebcuq_qItc
7tTouR10Qro
6uq-NBo3Bk
D-Fa71ta14
ioNctElzaas
PcOAmaZMNZY
4SJ-uWc3PQ
WI7e5-wURs
JN0MXb-zi8
IyR-sGt0uw
UqI-TBQRgg
mMT4Nt_c-A
UxN_uuEZC0
6k2ntyDP-c
u8zlG-OS_E
8IjJv90K-M
fZ0IO-Q-ZQ
rrtLyJs-3w
06oD_bFxOQ
Lo3hFbum_o
a06xpsZj-U
5EvC-g-KUQ
GQ-4QfVpXc
TyWiE-4zpM
esH_aGzBrw
7mJ12n-xyM
LktSuL8_7M
Xfmjzt_n24
ctWolbJDJyc
H8Ny92IEyaM
OnU1Hr_jlY
7TZOYU_Ta0
2DwBhMUH-I
9ILBd-ArtM
LKhtbW5q-c
0-s1eu4sF4
jToAVyxs-g
clhd73_vDQ
LESFP2wh_8
NtUqv_6vdU
I02uj1Sc7TM
I0luMKjIZyg
5vTJ-N4jrI
hR-iDJcjgU
F-aEPmjERo
ITTI-fkvo
C84yBh-fQw
NMaC-IGv_Q
YGwB8HJj-g
SxAU4_1c_o
S6wwANH-EY
hu_Ld-ddk
blq_c14hGQ
isSe2P8T-4
owWHGvn_b0
OoJW-OeFtw
G_lySaTeNM
XH_50Lp8qQ
PBf_Wa6vO8
pUDgyU_KGc
DYPEKYAcEFg
HWxZHHT_l4
IAo-mNduUk
6Xp_ymM0Lg
ZY_EfSlzGA
Zpj4-Z2YRk
c3-qJC_azg
B_pr_4s7vY
sAA809R_u1E
6c-sV_gmq0
QfuO07EqYhI
D6-UmndVJk
eJVHxmkm-4
bVVs-nntQ
RZXH93_XNY
5-dvLrzE78
kZsdc1A_J8
54Bs-0kdhA
Y-fUYGcb7o
5g0IDBneA
yAlJ1P_SGg
AgJx-0yaFQ
P56BlJO-gw
J-8cbYBG7c
aQR-rCWaVQ
7qK_w-g3Y
0IEt9-NeV4
TL-9g8KBFA
PB0FuE-fdA
7Od7A1-B9s
egPJubR-CE
Etym1-30wM
3E3GBXAUc
j3eNzQR-EI
rQuS0w-1b8
JcZ7Ry_9kg
j4Anoe2ug8k
Eq_X-uRNm8
0ML-FXomBw
G2XYLk0-38
RlFMUo-JE
QbBRu7a_xM
CMel_KnSzw
W9AQZ-gUro
W07v4Ci-zY
5sx6NEtkd1E
jToBK-njO8
spJJybwq-g
wvsuK9HBif0
r5c12Eo_jY
FawHl2-DAg
dguKqz_F5w
GBKRR-OvqM
adU_0hUdr8
DWE7WQkBvBc
ieIssRi8iXU
Q_vnBY8YP8
afwq-zVgJk
JP5gc9_J4I
iox_MbwxNg
aGmWWA-h3s
vI8Vp2-gfiU
7-dud_cqq8
o9-ONbnlRw
aVXC13LEJgU
MPqy00mB-Y
d8_H5d2sd4
2C-yeMmge0
FGj7-Cxu_0
3FihEVl-R8
cMG2QyN-mE
UZLHav3t_NQ
t_T_nYKdh8
DNb_6w2cZM
D5-ZGEjiWI
58I5s_qDVU
gmBW-mkRXA
VP-VaZhno0
p1Cftd_xo
73Kg-MKmwE
k0w_3JFfmE
m-YKP0ReEE
pn5NxJmok
c96bD-9fHs
jR-X0LqwpY
96AfwOj-qw
LrBC1_yf04
Oni-SybW0
6yaNVdS-2E
4J-bkpjVb4
v7DhQiuKEd0
n0WAbM8z-o
m-2ka9iN9M
WRh2_MJLLs
3MhOA-vSO8
u5A74I0-M
kahgmRD-4g
b-YkpzFphk
vYfm8bO-TM
gtC_avp2gU
5Vu8HJ_eMg
wdnasc-fCg
xxBx1jv-ks
Ykfa-4qx0
UHRaVrN_us
JwMoMeZ_v8
0ew-c0w7uc
uVv1h-xAe0
u4SSk4kWqLA
2L8B_meOLE
c-YbuFrXbI
Bu-6oESyxQ

如果方便您可以check一下这些

17Skye17 commented 2 years ago

代码里test阶段drop last我试过去设置成Flase了，如果不设置的话，不同batch size下的测试跑出来的结果有可能会不一样。但是就算设置了还是低，讲道理应该不是数据的问题，因为我这里的数据去跑其它的github都是要略高一点点的

中single view是一致的，但是在用这个checkpoint测试出来的结果差距比较大。下面是我的test的yaml文件。在单张3090上跑的

我的single crop测试结果vit16的8f,16f和32f都会比report的低1个点，不知是不是数据的问题。 ps.代码里test阶段drop last了可能会带来一些不一样

ps.我的val set包含19887条数据，比这个repo的19357多一点

geek12138 commented 2 years ago

我自己训练了两次v32的最小的模型，效果远远不如论文里面说的好，而且两次结果也差了0.5%以上，感觉这个波动有点大---- 回复的原邮件 @.>发送日期2022年01月05日 12:57 @.> 抄送人Zhaoqilin @.**@.>主题Re: [sallymmx/ActionCLIP] checkpoint的结果和论文不一致 (Issue #14)

您好，我也是这种情况，然后我仔细检查了一下repo里的val list，发现其中有一些和我的不一样（大约180个），不知道是不是这份val set的数据有点偏差

—Reply to this email directly, view it on GitHub, or unsubscribe.Triage notifications on the go with GitHub Mobile for iOS or Android.

You are receiving this because you authored the thread.Message ID: @.***>

[

{

@.***": "http://schema.org",

@.***": "EmailMessage",

"potentialAction": {

@.***": "ViewAction",

"target": "https://github.com/sallymmx/ActionCLIP/issues/14#issuecomment-1005382848",

"url": "https://github.com/sallymmx/ActionCLIP/issues/14#issuecomment-1005382848",

"name": "View Issue"

},

"description": "View this Issue on GitHub",

"publisher": {

@.***": "Organization",

"name": "GitHub",

"url": "https://github.com"

}

]

geek12138 commented 2 years ago

font{
    line-height: 1.6;
}
ul,ol{
    padding-left: 20px;
    list-style-position: inside;
}

    我测试的这个作者说的结果是82.32%，但是差了1%checkpoint/vit-16-32f_8232.pt  batch：1  Top1: 81.31295237131143, Top5: 95.91537176696868batch：2  Top1: 81.30694472565297, Top5: 95.91010325976919batch：4  Top1: 81.31706823243572, Top5: 95.91010325976919batch：8  Top1: 81.31328473066019, Top5: 95.90927501012555batch：16 Top1: 81.31584278768233, Top5: 95.91268233387358batch：32 Top1: 81.31584278768233, Top5: 95.91268233387358batch：64 Top1: 81.32102272727273, Top5: 95.90604707792207drop_last=Falsebatch：1  Top1: 81.31295237131143, Top5: 95.91537176696868batch：2  Top1: 81.3028293769297,  Top5: 95.9103102697778batch：4  Top1: 81.31295237131143, Top5: 95.9103102697778batch：8  Top1: 81.31295237131143, Top5: 95.9103102697778batch：16 Top1: 81.31295237131143, Top5: 95.9103102697778batch：32 Top1: 81.31295237131143, Top5: 95.9103102697778batch：64 Top1: 81.31295237131143, Top5: 95.9103102697778

                            497569188

                                ***@***.***

    签名由
    网易邮箱大师
    定制

在2022年01月5日 ***@***.***> 写道：

代码里test阶段drop last我试过去设置成Flase了，如果不设置的话，不同batch size下的测试跑出来的结果有可能会不一样。但是就算设置了还是低，讲道理应该不是数据的问题，因为我这里的数据去跑其它的github都是要略高一点点的

中single view是一致的，但是在用这个checkpoint测试出来的结果差距比较大。下面是我的test的yaml文件。在单张3090上跑的

我的single crop测试结果vit16的8f,16f和32f都会比report的低1个点，不知是不是数据的问题。 ps.代码里test阶段drop last了可能会带来一些不一样

ps.我的val set包含19887条数据，比这个repo的19357多一点

—Reply to this email directly, view it on GitHub, or unsubscribe.Triage notifications on the go with GitHub Mobile for iOS or Android. You are receiving this because you authored the thread.Message ID: @.***>

17Skye17 commented 2 years ago

font{ line-height: 1.6; } ul,ol{ padding-left: 20px; list-style-position: inside; } 我测试的这个作者说的结果是82.32%，但是差了1%checkpoint/vit-16-32f_8232.pt batch：1 Top1: 81.31295237131143, Top5: 95.91537176696868batch：2 Top1: 81.30694472565297, Top5: 95.91010325976919batch：4 Top1: 81.31706823243572, Top5: 95.91010325976919batch：8 Top1: 81.31328473066019, Top5: 95.90927501012555batch：16 Top1: 81.31584278768233, Top5: 95.91268233387358batch：32 Top1: 81.31584278768233, Top5: 95.91268233387358batch：64 Top1: 81.32102272727273, Top5: 95.90604707792207drop_last=Falsebatch：1 Top1: 81.31295237131143, Top5: 95.91537176696868batch：2 Top1: 81.3028293769297, Top5: 95.9103102697778batch：4 Top1: 81.31295237131143, Top5: 95.9103102697778batch：8 Top1: 81.31295237131143, Top5: 95.9103102697778batch：16 Top1: 81.31295237131143, Top5: 95.9103102697778batch：32 Top1: 81.31295237131143, Top5: 95.9103102697778batch：64 Top1: 81.31295237131143, Top5: 95.9103102697778 497569188 @. 签名由网易邮箱大师定制在2022年01月5日 @.> 写道：代码里test阶段drop last我试过去设置成Flase了，如果不设置的话，不同batch size下的测试跑出来的结果有可能会不一样。但是就算设置了还是低，讲道理应该不是数据的问题，因为我这里的数据去跑其它的github都是要略高一点点的中single view是一致的，但是在用这个checkpoint测试出来的结果差距比较大。下面是我的test的yaml文件。在单张3090上跑的我的single crop测试结果vit16的8f,16f和32f都会比report的低1个点，不知是不是数据的问题。 ps.代码里test阶段drop last了可能会带来一些不一样 ps.我的val set包含19887条数据，比这个repo的19357多一点 —Reply to this email directly, view it on GitHub, or unsubscribe.Triage notifications on the go with GitHub Mobile for iOS or Android. You are receiving this because you authored the thread.Message ID: @.***>

感谢回复，我这边vit-b-16 32frame的结果是：top1=81.05846 top5=95.65524，和你一样差不多低了1个点

geek12138 commented 2 years ago

font{
    line-height: 1.6;
}
ul,ol{
    padding-left: 20px;
    list-style-position: inside;
}

我猜想作者的测试集是不是删除了一些困难的样本

                            497569188

                                ***@***.***

    签名由
    网易邮箱大师
    定制

在2022年01月5日 ***@***.***> 写道： 

font{
    line-height: 1.6;
}
ul,ol{
    padding-left: 20px;
    list-style-position: inside;
}

    我测试的这个作者说的结果是82.32%，但是差了1%checkpoint/vit-16-32f_8232.pt  batch：1  Top1: 81.31295237131143, Top5: 95.91537176696868batch：2  Top1: 81.30694472565297, Top5: 95.91010325976919batch：4  Top1: 81.31706823243572, Top5: 95.91010325976919batch：8  Top1: 81.31328473066019, Top5: 95.90927501012555batch：16 Top1: 81.31584278768233, Top5: 95.91268233387358batch：32 Top1: 81.31584278768233, Top5: 95.91268233387358batch：64 Top1: 81.32102272727273, Top5: 95.90604707792207drop_last=Falsebatch：1  Top1: 81.31295237131143, Top5: 95.91537176696868batch：2  Top1: 81.3028293769297,  Top5: 95.9103102697778batch：4  Top1: 81.31295237131143, Top5: 95.9103102697778batch：8  Top1: 81.31295237131143, Top5: 95.9103102697778batch：16 Top1: 81.31295237131143, Top5: 95.9103102697778batch：32 Top1: 81.31295237131143, Top5: 95.9103102697778batch：64 Top1: 81.31295237131143, Top5: 95.9103102697778

                            497569188

                                ***@***.***

    签名由
    网易邮箱大师
    定制

在2022年01月5日 ***@***.***> 写道：

代码里test阶段drop last我试过去设置成Flase了，如果不设置的话，不同batch size下的测试跑出来的结果有可能会不一样。但是就算设置了还是低，讲道理应该不是数据的问题，因为我这里的数据去跑其它的github都是要略高一点点的

中single view是一致的，但是在用这个checkpoint测试出来的结果差距比较大。下面是我的test的yaml文件。在单张3090上跑的

我的single crop测试结果vit16的8f,16f和32f都会比report的低1个点，不知是不是数据的问题。 ps.代码里test阶段drop last了可能会带来一些不一样

ps.我的val set包含19887条数据，比这个repo的19357多一点

—Reply to this email directly, view it on GitHub, or unsubscribe.Triage notifications on the go with GitHub Mobile for iOS or Android. You are receiving this because you authored the thread.Message ID: @.***>

17Skye17 commented 2 years ago

想作者的测试集是不是删除了一些困难的样本

您好，我检查了下这个repo的val数据发现两个问题：

有一些样本无法从官方的val list找到，不确定是不是作者把原始视频重命名了还是混入了其他数据；
有一些官方的val list的数据在这个repo的val list里没有。

geek12138 commented 2 years ago

font{
    line-height: 1.6;
}
ul,ol{
    padding-left: 20px;
    list-style-position: inside;
}

按我的理解，原始视频就算是重命名也不会去更改英文字母，所以很有可能是混入了其他数据

                            497569188

                                ***@***.***

    签名由
    网易邮箱大师
    定制

在2022年01月5日 ***@***.***> 写道：

想作者的测试集是不是删除了一些困难的样本

您好，我检查了下这个repo的val数据发现两个问题：

有一些样本无法从官方的val list找到，不确定是不是作者把原始视频重命名了还是混入了其他数据；

有一些官方的val list的数据在这个repo的val list里没有。

—Reply to this email directly, view it on GitHub, or unsubscribe.Triage notifications on the go with GitHub Mobile for iOS or Android.

You are receiving this because you authored the thread.Message ID: @.***>

dreamerlin commented 2 years ago

我也测试了一下，发现作者的val list非常奇怪。他好像把开头为'-' 或者 “ ” 的 vid 都删去了'-' 和 " " 的字符。但即使复原后也会少差不多80+的数据，如下。

NtUqv_6vdU
3MhOA-vSO8
JwMoMeZ_v8
LrBC1_yf04
c96bD-9fHs
blq_c14hGQ
bVVs-nntQ
sSTHZHHp-c
WI7e5-wURs
iox_MbwxNg
IAo-mNduUk
2L8B_meOLE
wdnasc-fCg
NMaC-IGv_Q
OoJW-OeFtw
jR-X0LqwpY
c-YbuFrXbI
H-Ww0gGDWU
Xfmjzt_n24
I3_52Xh7oU
UqI-TBQRgg
RlFMUo-JE
Ykfa-4qx0
dguKqz_F5w
2DwBhMUH-I
u8zlG-OS_E
afwq-zVgJk
96AfwOj-qw
4SJ-uWc3PQ
esH_aGzBrw
xxBx1jv-ks
Zpj4-Z2YRk
HWxZHHT_l4
G_lySaTeNM
pUDgyU_KGc
GQ-4QfVpXc
D-Fa71ta14
u5A74I0-M
RZXH93_XNY
d8_H5d2sd4
Q_vnBY8YP8
7TZOYU_Ta0
fZ0IO-Q-ZQ
FawHl2-DAg
t_T_nYKdh8
7Od7A1-B9s
rQuS0w-1b8
n0WAbM8z-o
spJJybwq-g
OnU1Hr_jlY
LKhtbW5q-c
kUfOBKJZczk
vYfm8bO-TM
J-8cbYBG7c
a06xpsZj-U
uVv1h-xAe0
B_pr_4s7vY
YGwB8HJj-g
VP-VaZhno0
r5c12Eo_jY
yAlJ1P_SGg
ITTI-fkvo
GBKRR-OvqM
5Vu8HJ_eMg
D5-ZGEjiWI
06oD_bFxOQ
clhd73_vDQ
IyR-sGt0uw
hR-iDJcjgU
blRZN-6_ZM
G2XYLk0-38
FGj7-Cxu_0
LktSuL8_7M
S6wwANH-EY
gxLOV_s9wU
WRh2_MJLLs
UxN_uuEZC0
TyWiE-4zpM
rrtLyJs-3w
TL-9g8KBFA
5vTJ-N4jrI
HUiafDe-xTo
Etym1-30wM
4J-bkpjVb4
7-dud_cqq8
PBf_Wa6vO8
5EvC-g-KUQ

作者大大能不能把这部分给一下啊

sallymmx / ActionCLIP

checkpoint的结果和论文不一致 #14