boostcampaitech3 / level1-image-classification-level1-nlp-10

0 stars 4 forks source link

Data Leak 현상 해결방법 고안 (토론게시판) #12

Closed nonegom closed 2 years ago

nonegom commented 2 years ago

image

이미 dataset.py에 구현되어 있는 것으로 보입니다. 따라서 train.py에서 MaskBaseDataset → MaskSplitByProfileDataset 바꿔주시면 쉽게 사용이 가능할 것으로 보입니다.

단, 이 경우 k-fold의 방법을 어떻게 해야할 지에 대해서는 감이 잘 안잡히네요 ㅎㅎ

참고) https://stages.ai/competitions/104/discussion/talk/post/1133 하단에 김대근님께서 올려주신 댓글을 참고했습니다.

greenare commented 2 years ago

https://sarah0518.tistory.com/40 이 글 보면서 생각한 건데 우선 StratifiedKFold기법을 적용하여, train과 test dataset으로 쪼개고 train에 대해서만 augmentation 하면 될 것 같습니다.

greenare commented 2 years ago

그리고 모두가 댓글 안달면 in progress에 두어도 괜찮을까요?

hyoeun98 commented 2 years ago

이미 dataset.py에 구현되어 있는 것으로 보입니다. 따라서 train.py에서 MaskBaseDataset → MaskSplitByProfileDataset 바꿔주시면 쉽게 사용이 가능할 것으로 보입니다.

MaskSplitByProfileDataset.setup()수정했습니다