[Data] Valid Dataset 수정

hyoseok1223 commented 2 years ago

Background

valid socre가 LB를 잘 반영하지 못한다는 생각이 들었습니다. ~~이를 체크하기 위해서 Valid에 대해서 0.709가 나온 epoch 12 running결과를 LB에 제출해본 결과 0.631이 나왔습니다~~. 따라서 어느정도가 학습이 잘 된 시점인지를 결정하기에 valid set이 제 역할을 잘 해내지 못하고 있다고 생각합니다.(학습 양상을 보기에도) 따라서 valid set을 바꿔보려 합니다.

Content

leakage data를 valid set으로 이용 ( leakage된 상태인데, 오히려 test를 잘 대변할 수 있지 않을까 싶어서 valid set으로 이용해볼까 합니다)
train_all+leakage 합친 상태에서 새롭게 startified k-fold를 통해서 데이터를 나눠볼까 합니다.
val+leak 합친 상태에서 startified k-fold로 데이터를 나눠볼까 합니다.
val을 starified k-fold로 나눈 상태를 (3,5) leak에 합치기

Details

[x] 1
[x] 2
[x] 3
[x] 4 - 3
[ ] 4 -5

hyoseok1223 commented 2 years ago

exp	LB	Original Valid	val+leak fold1	val+leak fold2	val+leak fold3	val+leak fold4	val+leak fold5	leak	val_fold1+leak	val_fold2+leak	val_fold3+leak
18	0.6797	0.6742	0.647	0.6766	0.6606	0.6489	0.6616	0.6195	0.6419	0.6442	0.6509
33	0.6799	0.6776	0.6639	0.6751	0.6609	0.6631	0.6625	0.6224	0.6456	0.6514	0.6602
34	0.5971	0.6413	0.6359	0.6473	0.6295	0.6318	0.6199	0.6087	0.6185	0.6261	0.631
41	0.664	0.6801	0.6865	0.693	0.6812	0.6726	0.6873	0.6607	0.6761	0.6814	0.6769
62	0.6771	0.6771	0.6884	0.7001	0.6796	0.6728	0.6922	0.6725	0.6923	0.6809	0.6906
94	0.6391	0.6505	0.6531	0.6886	0.6688	0.6523	0.6636	0.6308	0.6406	0.6598	0.6587

hyoseok1223 commented 2 years ago

2번은 data leakage문제로 실험이 유의미하지 않아 결과를 남기지 않았습니다.
추가적으로 앞서 피어세션에서 94번 실험의 valid결과가 0.7009라고 말씀드렸고, 저도 그렇게 알고 있었는데, 그 다음 epoch결과인 0.6505가 저장된 것 같습니다. (혼란을 드려 죄송합니다.) 이것저것 전부 확인해봤는데, 기존의 valid만한게 없는 것 같긴합니다.
위에서 leakage를 주로 이용하고자 한 이유는 leakage로 결과를 확인해본 결과 무척 유사한 경향성을 띄는 실험들이 있고 이와 대비되게 엄청 다른 실험들이 있어서, valid를 leakage에다가 적절히 섞어주면 약간 smoothing되겠지만 어느정도 경향성을 반영할 수 있지 않을까 해서였습니다.

boostcampaitech3 / level2-semantic-segmentation-level2-cv-17

[Data] Valid Dataset 수정 #47

Background

Content

Details