Cutmix, Crop, Duplicated 실험 2 - Githubissues

sangmandu / 2022-DCC

0 stars 1 forks source link

Cutmix, Crop, Duplicated 실험 2 #32

Open sangmandu opened 1 year ago

sangmandu commented 1 year ago

Duplicated

다음의 두 가지 모델에 대해 실험했습니다.

1e-3_nd_33 : Efficientnet, dup_sim = 1.0, 23354data, epoch 33
1e-3_100 : Efficientnet, dup_sim = 0.9, 7982data, epoch 100

중요한 점은 epoch 수가 다르다는 점입니다. 공평한 성능 측정을 위해 두 모델의 학습량을 동일하게 했고 이에 맞게 epoch를 설정했습니다. 대략 1/3의 데이터 크기 차이가 나서 epoch도 대략 1/3로 맞추었습니다.

23554 x 33 = 770,682
7982 * 100 = 798,200

스케치 데이터 미 포함

inference.py

    if not opts.schetch:
        paths = [path for path in paths if 's_' not in path]

스케치 데이터는 우리가 학습한 데이터는 아니므로 선택적으로 활용할 수 있도록 했습니다.

dup_sim = 1.0, f1 0.4279
dup_sim = 0.9, f1 0.4672

스케치 데이터 포함

dup_sim = 1.0, f1 0.3904
dup_sim = 0.9, f1 0.4093

결론

예상했듯이 스케치 데이터는 학습 데이터에 포함되어 있지 않았으므로 test data에 추가될 때 성능이 하향하였습니다.
중복제거를 적용했을 때 그렇지 않은 모델보다 f1 4점 향상 된 46점을 얻었습니다. (스케치 데이터 미 포함 기준)

Cutmix and Crop

다음의 세 가지 모델에 대한 100epochs 결과입니다.

기본
Crop
Cutmix 0.25

또한, Cutmix의 정도에 대한 비교 실험 결과입니다.

결론

우리 데이터셋에는 Crop과 Cutmix를 적용하지 않는 편이 좋다고 판단됩니다.

주최측에서 성능 평가시 center crop이 적용된다는 점은 알고 계시는 게 좋아보입니다.