Open yunyoseob opened 2 years ago
현재 ipynb 확인할 시간은 없어서 그런데,,, 혹시 해당 noise 데이터를 @qkrwjdduf159 님이 작성한 모델로 돌려서 제출한 적이 있을까요?
아니요 아직 없습니다
네이버 메일앱에서 보냈습니다. -----Original Message----- 보낸사람: "Ashbee @.> 받는사람: @.> 참조: "Yun @.>, @.> 날짜: 2022. 1. 20 오후 8:29:20 제목: Re: [Proj-Caliber/Job-Care] How to solve this problem(My idea) (Issue #12)
현재 ipynb 확인할 시간은 없어서 그런데,,, 혹시 해당 noise 데이터를 @qkrwjdduf159 님이 작성한 모델로 돌려서 제출한 적이 있을까요? — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>
Calibration plot이 지그재그?로 찍힌다면 위에 설명해준 내용으로 점수가 현재 기준 제일 높게 나온 모델로 진행하면 재미있는 결과가 나올 것 같아서요. 데이터 파일 DM으로 주시면 토요일 새벽까진 해볼게요👷🏼♀️
보냈습니다~
train과는 다른 test의 특성을 모델에 어떻게 학습시킬지에 대한 고민으로, 저는 이렇게 아이디어를 냈습니다. 데이터를 만들어 낸 방식은 target이 불균형한 데이터 1 (0이 많은 데이터), target이 불균형한 데이터 2 (1이 많은 데이터)를 만들어준 뒤, Oversampling(SMOTE)로 이들의 균형을 맞춰주었습니다.
노이즈 데이터는 총 2개를 만들었고, 차이는 다음과 같습니다.
기존에 훈련시킬 의도적으로 만든 불균형 학습데이터에 만들어 놓은 노이즈 데이터의 10%를 추가로 채워, 학습을 진행한 뒤, 검증하고자 하였습니다. < ex) 학습시킬 train 데이터 30만개 + 표본추출한 3만개의 노이즈 데이터 >
만들어진 noise 데이터<new_train(type1), noise(type2)>는 용량이 많아 올릴 수가 없어서, 말씀해주시면 slack 을 개인 DM을 통해 보내드리도록 하겠습니다.
어떻게 noise 데이터를 학습했는지는 제 branch에 JOB_CARE_YUNYOSEOB.ipynb에서 확인하실 수 있습니다.
또 다른 좋은 아이디어가 있으면 공유해주십쇼!!