How to solve this problem(My idea)

yunyoseob commented 2 years ago

idea1 idea2 idea3 idea4 idea5 idea6

train과는 다른 test의 특성을 모델에 어떻게 학습시킬지에 대한 고민으로, 저는 이렇게 아이디어를 냈습니다. 데이터를 만들어 낸 방식은 target이 불균형한 데이터 1 (0이 많은 데이터), target이 불균형한 데이터 2 (1이 많은 데이터)를 만들어준 뒤, Oversampling(SMOTE)로 이들의 균형을 맞춰주었습니다.

노이즈 데이터는 총 2개를 만들었고, 차이는 다음과 같습니다.

> type 1과 type 2의 차이
- type 1은 기존데이터+Oversamping 된 데이터의 라벨을 둘 다 바꿔서 노이즈 데이터 생성(new_train.csv, 100만개)
- type 2는 기존데이터+Oversampling 된 데이터에서 Oversampling된 타겟 데이터만 뽑은 뒤, 라벨을 바꿔서 노이즈 데이터 생성(noise.csv, 50만개)

기존에 훈련시킬 의도적으로 만든 불균형 학습데이터에 만들어 놓은 노이즈 데이터의 10%를 추가로 채워, 학습을 진행한 뒤, 검증하고자 하였습니다. < ex) 학습시킬 train 데이터 30만개 + 표본추출한 3만개의 노이즈 데이터 >

만들어진 noise 데이터<new_train(type1), noise(type2)>는 용량이 많아 올릴 수가 없어서, 말씀해주시면 slack 을 개인 DM을 통해 보내드리도록 하겠습니다.

어떻게 noise 데이터를 학습했는지는 제 branch에 JOB_CARE_YUNYOSEOB.ipynb에서 확인하실 수 있습니다.

또 다른 좋은 아이디어가 있으면 공유해주십쇼!!

ashbeekim commented 2 years ago

현재 ipynb 확인할 시간은 없어서 그런데,,, 혹시 해당 noise 데이터를 @qkrwjdduf159 님이 작성한 모델로 돌려서 제출한 적이 있을까요?

yunyoseob commented 2 years ago

아니요 아직 없습니다

네이버 메일앱에서 보냈습니다. -----Original Message----- 보낸사람: "Ashbee @.> 받는사람: @.> 참조: "Yun @.>, @.> 날짜: 2022. 1. 20 오후 8:29:20 제목: Re: [Proj-Caliber/Job-Care] How to solve this problem(My idea) (Issue #12)

현재 ipynb 확인할 시간은 없어서 그런데,,, 혹시 해당 noise 데이터를 @qkrwjdduf159 님이 작성한 모델로 돌려서 제출한 적이 있을까요? — Reply to this email directly, view it on GitHub, or unsubscribe. You are receiving this because you authored the thread.Message ID: @.***>

ashbeekim commented 2 years ago

Calibration plot이 지그재그?로 찍힌다면 위에 설명해준 내용으로 점수가 현재 기준 제일 높게 나온 모델로 진행하면 재미있는 결과가 나올 것 같아서요. 데이터 파일 DM으로 주시면 토요일 새벽까진 해볼게요👷🏼‍♀️

yunyoseob commented 2 years ago

보냈습니다~

Proj-Caliber / Job-Care

How to solve this problem(My idea) #12