Tsingularity / dift

[NeurIPS'23] Emergent Correspondence from Image Diffusion
https://diffusionfeatures.github.io
MIT License
594 stars 32 forks source link

Recreating results from paper #24

Closed ehedlin closed 5 months ago

ehedlin commented 5 months ago

What commands were used to get the numbers in the paper for Spair71k? Im running the command suggested in the repo and getting worse results than are listed in the paper.

(dift) ehedlin@dory:dift$ python eval_spair.py     --dataset_path ./SPair-71k     --save_path ./spair_ft --dift_model sd     --img_size 768 768     --t 261     --up_ft_index 2     --ensemble_size 8                                                                                                                                                                                            
main path: /scratch/iamerich/dift                                                                                                                      
dataset_path: ./SPair-71k                                                                                                                              
save_path: ./spair_ft                                                                                                                                  
dift_model: sd                                                                                                                                         
img_size: [768, 768]                                                                                                                                   
t: 261                                                                                                                                                 
up_ft_index: 2                                                                                                                                         
ensemble_size: 8                                                                                                                                       
saving all test images' features...                                                                                                                    
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 18/18 [15:14<00:00, 50.82s/it]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 702/702 [00:09<00:00, 73.55it/s]
motorbike per image PCK@0.1: 22.07                                                                                                                     
motorbike per point PCK@0.1: 24.04                                                                                                                     
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 600/600 [00:11<00:00, 51.32it/s]
horse per image PCK@0.1: 26.61                                                                                                                         
horse per point PCK@0.1: 29.55                                                                                                                         
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 646/646 [00:10<00:00, 64.40it/s]
chair per image PCK@0.1: 11.92                                                                                                                         
chair per point PCK@0.1: 13.25                                                                                                                         
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 870/870 [00:16<00:00, 52.79it/s]
bottle per image PCK@0.1: 25.35
bottle per point PCK@0.1: 26.52
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 600/600 [00:16<00:00, 36.05it/s]

cat per image PCK@0.1: 59.13
cat per point PCK@0.1: 58.86
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 702/702 [00:12<00:00, 57.22it/s]
bird per image PCK@0.1: 41.07
bird per point PCK@0.1: 43.91
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 650/650 [00:10<00:00, 61.80it/s]
bicycle per image PCK@0.1: 26.51
bicycle per point PCK@0.1: 28.09
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 644/644 [00:12<00:00, 52.04it/s]
bus per image PCK@0.1: 24.37
bus per point PCK@0.1: 33.25
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 756/756 [00:22<00:00, 34.08it/s]
train per image PCK@0.1: 48.58
train per point PCK@0.1: 50.81
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 650/650 [00:11<00:00, 54.38it/s]
person per image PCK@0.1: 26.87
person per point PCK@0.1: 30.52
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 690/690 [00:13<00:00, 49.57it/s]
aeroplane per image PCK@0.1: 32.07
aeroplane per point PCK@0.1: 34.82
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 664/664 [00:10<00:00, 64.55it/s]
sheep per image PCK@0.1: 25.98
sheep per point PCK@0.1: 33.42
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 692/692 [00:19<00:00, 34.80it/s]
tvmonitor per image PCK@0.1: 23.60
tvmonitor per point PCK@0.1: 24.71
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 600/600 [00:13<00:00, 46.04it/s]
dog per image PCK@0.1: 30.61
dog per point PCK@0.1: 33.44
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 862/862 [00:12<00:00, 67.95it/s]
pottedplant per image PCK@0.1: 27.44
pottedplant per point PCK@0.1: 29.76
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 640/640 [00:14<00:00, 43.27it/s]
cow per image PCK@0.1: 39.09
cow per point PCK@0.1: 44.68
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 702/702 [00:09<00:00, 73.83it/s]
boat per image PCK@0.1: 15.73
boat per point PCK@0.1: 18.28
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 564/564 [00:09<00:00, 60.91it/s]
car per image PCK@0.1: 22.34
car per point PCK@0.1: 30.62
All per image PCK@0.1: 29.35
All per point PCK@0.1: 34.31
Tsingularity commented 5 months ago

Sorry I just noticed I made a typo in the ReadMe file. We actually used --up_ft_index 1 as in the interactive demo and section C.1 of the paper. Could you please try again with the correct hyper-parameter and see how it goes?

ehedlin commented 5 months ago

Ah, that did it, thank you :)