google-research / vision_transformer

Apache License 2.0
10.35k stars 1.28k forks source link

Hyperparameters for best Resisc45 model trained from scratch #128

Open Riksi opened 3 years ago

Riksi commented 3 years ago

Could you please share the hyperparameters that yield the best results for models trained from scratch on Resisc45?

Also you state in the paper

We perform a thorough search for a good training recipe for both the small ViT-Ti/16 and the larger ViT-B/16 models

but in Appendix A hyperparameters are reported for B/32 not Ti/16. Can you please clarify which model was used?

Thanks.

andsteing commented 3 years ago

We first did the "from scratch" experiments with Ti/16, but then moved to B/32 because that's in general the better configuration (as mentioned in finding 4.6). Figure 2 should say B/32 accordingly - sorry for this typo, it's fixed it in the next version that we plan to upload after the review process.

Settings + results from resisc45 B/32 sweep:

lr total_steps randaug.l randaug.m mixup.p dropout stoch_depth test_prec
0.03 500 0 0 0 0 0 0.940476
0.03 500 2 10 0.2 0 0 0.906984
0.03 500 2 15 0.2 0 0 0.89619
0.03 500 2 15 0.5 0 0 0.89
0.03 500 2 20 0.5 0 0 0.866508
0.03 500 2 20 0.8 0 0 0.857302
0.03 500 4 15 0.5 0 0 0.813492
0.03 500 4 20 0.8 0 0 0.732381
0.03 500 0 0 0 0.1 0.1 0.745873
0.03 500 2 10 0.2 0.1 0.1 0.574127
0.03 500 2 15 0.2 0.1 0.1 0.558095
0.03 500 2 15 0.5 0.1 0.1 0.517302
0.03 500 2 20 0.5 0.1 0.1 0.445714
0.03 500 2 20 0.8 0.1 0.1 0.417143
0.03 500 4 15 0.5 0.1 0.1 0.284444
0.03 500 4 20 0.8 0.1 0.1 0.132857
0.03 500 0 0 0 0.2 0.2 0.421111
0.03 500 2 10 0.2 0.2 0.2 0.229524
0.03 500 2 15 0.2 0.2 0.2 0.208413
0.03 500 2 15 0.5 0.2 0.2 0.183175
0.03 500 2 20 0.5 0.2 0.2 0.0974603
0.03 500 2 20 0.8 0.2 0.2 0.108571
0.03 500 4 15 0.5 0.2 0.2 0.107937
0.03 500 4 20 0.8 0.2 0.2 0.084127
0.01 500 0 0 0 0 0 0.917302
0.01 500 2 10 0.2 0 0 0.866984
0.01 500 2 15 0.2 0 0 0.847937
0.01 500 2 15 0.5 0 0 0.836349
0.01 500 2 20 0.5 0 0 0.801746
0.01 500 2 20 0.8 0 0 0.791746
0.01 500 4 15 0.5 0 0 0.719841
0.01 500 4 20 0.8 0 0 0.637778
0.01 500 0 0 0 0.1 0.1 0.626825
0.01 500 2 10 0.2 0.1 0.1 0.387143
0.01 500 2 15 0.2 0.1 0.1 0.34127
0.01 500 2 15 0.5 0.1 0.1 0.306984
0.01 500 2 20 0.5 0.1 0.1 0.23
0.01 500 2 20 0.8 0.1 0.1 0.216825
0.01 500 4 15 0.5 0.1 0.1 0.129048
0.01 500 4 20 0.8 0.1 0.1 0.0784127
0.01 500 0 0 0 0.2 0.2 0.338095
0.01 500 2 10 0.2 0.2 0.2 0.154444
0.01 500 2 15 0.2 0.2 0.2 0.139683
0.01 500 2 15 0.5 0.2 0.2 0.143492
0.01 500 2 20 0.5 0.2 0.2 0.111429
0.01 500 2 20 0.8 0.2 0.2 0.108413
0.01 500 4 15 0.5 0.2 0.2 0.0853968
0.01 500 4 20 0.8 0.2 0.2 0.072381
0.003 500 0 0 0 0 0 0.868095
0.003 500 2 10 0.2 0 0 0.768254
0.003 500 2 15 0.2 0 0 0.731587
0.003 500 2 15 0.5 0 0 0.705873
0.003 500 2 20 0.5 0 0 0.666032
0.003 500 2 20 0.8 0 0 0.649841
0.003 500 4 15 0.5 0 0 0.524603
0.003 500 4 20 0.8 0 0 0.437778
0.003 500 0 0 0 0.1 0.1 0.38254
0.003 500 2 10 0.2 0.1 0.1 0.139524
0.003 500 2 15 0.2 0.1 0.1 0.111111
0.003 500 2 15 0.5 0.1 0.1 0.0996825
0.003 500 2 20 0.5 0.1 0.1 0.0879365
0.003 500 2 20 0.8 0.1 0.1 0.0961905
0.003 500 4 15 0.5 0.1 0.1 0.074127
0.003 500 4 20 0.8 0.1 0.1 0.0847619
0.003 500 0 0 0 0.2 0.2 0.150635
0.003 500 2 10 0.2 0.2 0.2 0.0915873
0.003 500 2 15 0.2 0.2 0.2 0.0912698
0.003 500 2 15 0.5 0.2 0.2 0.0753968
0.003 500 2 20 0.5 0.2 0.2 0.0890476
0.003 500 2 20 0.8 0.2 0.2 0.0868254
0.003 500 4 15 0.5 0.2 0.2 0.067619
0.003 500 4 20 0.8 0.2 0.2 0.0503175
0.001 500 0 0 0 0 0 0.747143
0.001 500 2 10 0.2 0 0 0.56381
0.001 500 2 15 0.2 0 0 0.522063
0.001 500 2 15 0.5 0 0 0.484603
0.001 500 2 20 0.5 0 0 0.432857
0.001 500 2 20 0.8 0 0 0.428413
0.001 500 4 15 0.5 0 0 0.356349
0.001 500 4 20 0.8 0 0 0.281111
0.001 500 0 0 0 0.1 0.1 0.125397
0.001 500 2 10 0.2 0.1 0.1 0.0738095
0.001 500 2 15 0.2 0.1 0.1 0.0793651
0.001 500 2 15 0.5 0.1 0.1 0.0904762
0.001 500 2 20 0.5 0.1 0.1 0.092381
0.001 500 2 20 0.8 0.1 0.1 0.0992063
0.001 500 4 15 0.5 0.1 0.1 0.0595238
0.001 500 4 20 0.8 0.1 0.1 0.074127
0.001 500 0 0 0 0.2 0.2 0.1
0.001 500 2 10 0.2 0.2 0.2 0.0734921
0.001 500 2 15 0.2 0.2 0.2 0.088254
0.001 500 2 15 0.5 0.2 0.2 0.0795238
0.001 500 2 20 0.5 0.2 0.2 0.0631746
0.001 500 2 20 0.8 0.2 0.2 0.0896825
0.001 500 4 15 0.5 0.2 0.2 0.0503175
0.001 500 4 20 0.8 0.2 0.2 0.061746
0.03 2500 0 0 0 0 0 0.957619
0.03 2500 2 10 0.2 0 0 0.95
0.03 2500 2 15 0.2 0 0 0.945714
0.03 2500 2 15 0.5 0 0 0.94
0.03 2500 2 20 0.5 0 0 0.932063
0.03 2500 2 20 0.8 0 0 0.927937
0.03 2500 4 15 0.5 0 0 0.909841
0.03 2500 4 20 0.8 0 0 0.89127
0.03 2500 0 0 0 0.1 0.1 0.910794
0.03 2500 2 10 0.2 0.1 0.1 0.849206
0.03 2500 2 15 0.2 0.1 0.1 0.830159
0.03 2500 2 15 0.5 0.1 0.1 0.819365
0.03 2500 2 20 0.5 0.1 0.1 0.782063
0.03 2500 2 20 0.8 0.1 0.1 0.771429
0.03 2500 4 15 0.5 0.1 0.1 0.686825
0.03 2500 4 20 0.8 0.1 0.1 0.598889
0.03 2500 0 0 0 0.2 0.2 0.750317
0.03 2500 2 10 0.2 0.2 0.2 0.613651
0.03 2500 2 15 0.2 0.2 0.2 0.620635
0.03 2500 2 15 0.5 0.2 0.2 0.600952
0.03 2500 2 20 0.5 0.2 0.2 0.54127
0.03 2500 2 20 0.8 0.2 0.2 0.525238
0.03 2500 4 15 0.5 0.2 0.2 0.382857
0.03 2500 4 20 0.8 0.2 0.2 0.28
0.01 2500 0 0 0 0 0 0.953016
0.01 2500 2 10 0.2 0 0 0.93
0.01 2500 2 15 0.2 0 0 0.924762
0.01 2500 2 15 0.5 0 0 0.923016
0.01 2500 2 20 0.5 0 0 0.906508
0.01 2500 2 20 0.8 0 0 0.905556
0.01 2500 4 15 0.5 0 0 0.871111
0.01 2500 4 20 0.8 0 0 0.844444
0.01 2500 0 0 0 0.1 0.1 0.841746
0.01 2500 2 10 0.2 0.1 0.1 0.732857
0.01 2500 2 15 0.2 0.1 0.1 0.706032
0.01 2500 2 15 0.5 0.1 0.1 0.680794
0.01 2500 2 20 0.5 0.1 0.1 0.635397
0.01 2500 2 20 0.8 0.1 0.1 0.61381
0.01 2500 4 15 0.5 0.1 0.1 0.480635
0.01 2500 4 20 0.8 0.1 0.1 0.409206
0.01 2500 0 0 0 0.2 0.2 0.566667
0.01 2500 2 10 0.2 0.2 0.2 0.411905
0.01 2500 2 15 0.2 0.2 0.2 0.359683
0.01 2500 2 15 0.5 0.2 0.2 0.310794
0.01 2500 2 20 0.5 0.2 0.2 0.23619
0.01 2500 2 20 0.8 0.2 0.2 0.22
0.01 2500 4 15 0.5 0.2 0.2 0.14
0.01 2500 4 20 0.8 0.2 0.2 0.0749206
0.003 2500 0 0 0 0 0 0.930317
0.003 2500 2 10 0.2 0 0 0.894762
0.003 2500 2 15 0.2 0 0 0.882222
0.003 2500 2 15 0.5 0 0 0.876825
0.003 2500 2 20 0.5 0 0 0.853651
0.003 2500 2 20 0.8 0 0 0.847619
0.003 2500 4 15 0.5 0 0 0.797778
0.003 2500 4 20 0.8 0 0 0.742222
0.003 2500 0 0 0 0.1 0.1 0.731587
0.003 2500 2 10 0.2 0.1 0.1 0.532222
0.003 2500 2 15 0.2 0.1 0.1 0.509683
0.003 2500 2 15 0.5 0.1 0.1 0.47619
0.003 2500 2 20 0.5 0.1 0.1 0.38746
0.003 2500 2 20 0.8 0.1 0.1 0.369206
0.003 2500 4 15 0.5 0.1 0.1 0.256032
0.003 2500 4 20 0.8 0.1 0.1 0.135397
0.003 2500 0 0 0 0.2 0.2 0.36873
0.003 2500 2 10 0.2 0.2 0.2 0.158571
0.003 2500 2 15 0.2 0.2 0.2 0.126508
0.003 2500 2 15 0.5 0.2 0.2 0.127937
0.003 2500 2 20 0.5 0.2 0.2 0.113968
0.003 2500 2 20 0.8 0.2 0.2 0.106032
0.003 2500 4 15 0.5 0.2 0.2 0.0930159
0.003 2500 4 20 0.8 0.2 0.2 0.0960317
0.001 2500 0 0 0 0 0 0.899524
0.001 2500 2 10 0.2 0 0 0.832381
0.001 2500 2 15 0.2 0 0 0.811587
0.001 2500 2 15 0.5 0 0 0.798254
0.001 2500 2 20 0.5 0 0 0.762063
0.001 2500 2 20 0.8 0 0 0.751429
0.001 2500 4 15 0.5 0 0 0.665238
0.001 2500 4 20 0.8 0 0 0.573968
0.001 2500 0 0 0 0.1 0.1 0.536508
0.001 2500 2 10 0.2 0.1 0.1 0.244921
0.001 2500 2 15 0.2 0.1 0.1 0.194762
0.001 2500 2 15 0.5 0.1 0.1 0.177778
0.001 2500 2 20 0.5 0.1 0.1 0.137143
0.001 2500 2 20 0.8 0.1 0.1 0.122857
0.001 2500 4 15 0.5 0.1 0.1 0.0890476
0.001 2500 4 20 0.8 0.1 0.1 0.0690476
0.001 2500 0 0 0 0.2 0.2 0.272063
0.001 2500 2 10 0.2 0.2 0.2 0.115556
0.001 2500 2 15 0.2 0.2 0.2 0.111905
0.001 2500 2 15 0.5 0.2 0.2 0.0946032
0.001 2500 2 20 0.5 0.2 0.2 0.0987302
0.001 2500 2 20 0.8 0.2 0.2 0.108095
0.001 2500 4 15 0.5 0.2 0.2 0.078254
0.001 2500 4 20 0.8 0.2 0.2 0.0730159
0.03 5000 0 0 0 0 0 0.955714
0.03 5000 2 10 0.2 0 0 0.96
0.03 5000 2 15 0.2 0 0 0.955238
0.03 5000 2 15 0.5 0 0 0.951111
0.03 5000 2 20 0.5 0 0 0.943016
0.03 5000 2 20 0.8 0 0 0.940476
0.03 5000 4 15 0.5 0 0 0.928571
0.03 5000 4 20 0.8 0 0 0.917778
0.03 5000 0 0 0 0.1 0.1 0.92746
0.03 5000 2 10 0.2 0.1 0.1 0.890794
0.03 5000 2 15 0.2 0.1 0.1 0.876508
0.03 5000 2 15 0.5 0.1 0.1 0.871746
0.03 5000 2 20 0.5 0.1 0.1 0.855714
0.03 5000 2 20 0.8 0.1 0.1 0.846349
0.03 5000 4 15 0.5 0.1 0.1 0.78746
0.03 5000 4 20 0.8 0.1 0.1 0.730159
0.03 5000 0 0 0 0.2 0.2 0.836508
0.03 5000 2 10 0.2 0.2 0.2 0.726984
0.03 5000 2 15 0.2 0.2 0.2 0.708254
0.03 5000 2 15 0.5 0.2 0.2 0.695238
0.03 5000 2 20 0.5 0.2 0.2 0.673016
0.03 5000 2 20 0.8 0.2 0.2 0.664444
0.03 5000 4 15 0.5 0.2 0.2 0.575397
0.03 5000 4 20 0.8 0.2 0.2 0.442222
0.01 5000 0 0 0 0 0 0.953651
0.01 5000 2 10 0.2 0 0 0.945397
0.01 5000 2 15 0.2 0 0 0.939365
0.01 5000 2 15 0.5 0 0 0.936032
0.01 5000 2 20 0.5 0 0 0.92873
0.01 5000 2 20 0.8 0 0 0.924921
0.01 5000 4 15 0.5 0 0 0.905238
0.01 5000 4 20 0.8 0 0 0.886349
0.01 5000 0 0 0 0.1 0.1 0.891429
0.01 5000 2 10 0.2 0.1 0.1 0.818889
0.01 5000 2 15 0.2 0.1 0.1 0.799841
0.01 5000 2 15 0.5 0.1 0.1 0.781746
0.01 5000 2 20 0.5 0.1 0.1 0.741111
0.01 5000 2 20 0.8 0.1 0.1 0.73873
0.01 5000 4 15 0.5 0.1 0.1 0.64
0.01 5000 4 20 0.8 0.1 0.1 0.555714
0.01 5000 0 0 0 0.2 0.2 0.685556
0.01 5000 2 10 0.2 0.2 0.2 0.536349
0.01 5000 2 15 0.2 0.2 0.2 0.526984
0.01 5000 2 15 0.5 0.2 0.2 0.483651
0.01 5000 2 20 0.5 0.2 0.2 0.413333
0.01 5000 2 20 0.8 0.2 0.2 0.398254
0.01 5000 4 15 0.5 0.2 0.2 0.251746
0.01 5000 4 20 0.8 0.2 0.2 0.154603
0.003 5000 0 0 0 0 0 0.942381
0.003 5000 2 10 0.2 0 0 0.918889
0.003 5000 2 15 0.2 0 0 0.911587
0.003 5000 2 15 0.5 0 0 0.904921
0.003 5000 2 20 0.5 0 0 0.889365
0.003 5000 2 20 0.8 0 0 0.884603
0.003 5000 4 15 0.5 0 0 0.849683
0.003 5000 4 20 0.8 0 0 0.807778
0.003 5000 0 0 0 0.1 0.1 0.800476
0.003 5000 2 10 0.2 0.1 0.1 0.666667
0.003 5000 2 15 0.2 0.1 0.1 0.630476
0.003 5000 2 15 0.5 0.1 0.1 0.620952
0.003 5000 2 20 0.5 0.1 0.1 0.563492
0.003 5000 2 20 0.8 0.1 0.1 0.545238
0.003 5000 4 15 0.5 0.1 0.1 0.410635
0.003 5000 4 20 0.8 0.1 0.1 0.279365
0.003 5000 0 0 0 0.2 0.2 0.497143
0.003 5000 2 10 0.2 0.2 0.2 0.287619
0.003 5000 2 15 0.2 0.2 0.2 0.22746
0.003 5000 2 15 0.5 0.2 0.2 0.19873
0.003 5000 2 20 0.5 0.2 0.2 0.129206
0.003 5000 2 20 0.8 0.2 0.2 0.123651
0.003 5000 4 15 0.5 0.2 0.2 0.0826984
0.003 5000 4 20 0.8 0.2 0.2 0.0793651
0.001 5000 0 0 0 0 0 0.921587
0.001 5000 2 10 0.2 0 0 0.874444
0.001 5000 2 15 0.2 0 0 0.860317
0.001 5000 2 15 0.5 0 0 0.856032
0.001 5000 2 20 0.5 0 0 0.829365
0.001 5000 2 20 0.8 0 0 0.81873
0.001 5000 4 15 0.5 0 0 0.76619
0.001 5000 4 20 0.8 0 0 0.694762
0.001 5000 0 0 0 0.1 0.1 0.686825
0.001 5000 2 10 0.2 0.1 0.1 0.456667
0.001 5000 2 15 0.2 0.1 0.1 0.40746
0.001 5000 2 15 0.5 0.1 0.1 0.378095
0.001 5000 2 20 0.5 0.1 0.1 0.276349
0.001 5000 2 20 0.8 0.1 0.1 0.260159
0.001 5000 4 15 0.5 0.1 0.1 0.158254
0.001 5000 4 20 0.8 0.1 0.1 0.0968254
0.001 5000 0 0 0 0.2 0.2 0.354603
0.001 5000 2 10 0.2 0.2 0.2 0.126984
0.001 5000 2 15 0.2 0.2 0.2 0.151111
0.001 5000 2 15 0.5 0.2 0.2 0.148571
0.001 5000 2 20 0.5 0.2 0.2 0.104603
0.001 5000 2 20 0.8 0.2 0.2 0.0939683
0.001 5000 4 15 0.5 0.2 0.2 0.0807937
0.001 5000 4 20 0.8 0.2 0.2 0.0760317
Riksi commented 3 years ago

Thanks for the information. Could you also please share what weight decay values were used? In addition the paper refers to "epochs" whilst the table has a column "total_steps". Is this equivalent to "epochs" in the paper?