Validation set 분할 argparse 적용

mon823 commented 3 years ago

이슈 내용

Validation set 분할 비율에 관현 argparser적용

작업 내용

[ ] argparser 적용
[ ] argparser을 이용한 random split이 가능하도록 load_data.py, train.py 수정

주의 사항

k-fold와 어느정도 역할이 겹치기는 하나 완전한 랜덤이 가능하도록 하기 위한 요청.
토의를 통해 불필요하다고 결론지어진다면 그냥 클로징될 수 있음.
추가되는 argparser은 디포트로 받은 값은 0.2로 k-fold의 디포트 5와 일맥상통하게 할 것.
argparser에서 ratio와 k_num의 값의 변동을 체크해서 반영해야 한다. 혹은 k_fold :bool을 따로 받는 것도 방법이다.

AmenPark commented 3 years ago

해당 이슈는 기존의 iter_num = 1, k_num = 1/(ratio) 으로 사용할 경우 나오는 결과물이 data의 무작위 분할이 아니라는 점에서 파생되었습니다. 완전 무작위로 극단적인 예를 들자면, 해당 이슈를 해결하여 적용한다면 validation_dataset이 모두 no_relation으로 나오는 경우가 존재하게 되는데 별다른 의미가 없다고 생각합니다. (현재의 코드는 k_num이 5이면 1:4로 dataset을 분할하는데, no_relation 라벨된것이 100개면 20개만을 validation dataset으로 넣는 방식으로 그 비율이 지켜지고 있습니다.) 다른 의견 있으시다면 아래에 남겨 주시면 감사하겠습니다.

zerohoon0102 commented 3 years ago

아멘님 코드만 merge하면 될 것 같아서 제 PR과 해당 Issue Close하겠습니다

boostcampaitech2 / klue-level2-nlp-11