naem1023 / rec-sys-2022-challenge

Recsys2022 challenge
3 stars 1 forks source link

EDA #1

Open naem1023 opened 2 years ago

ili0820 commented 2 years ago

image 1000000개의 세션, 1000000개의 최종 구매 50000 개의 test_final session -> 아마 validation? 50000 개의 test_leaderboard_session -> 아마 제출용 테스트 세션들 인듯?

image 4990개의 CANDIDATE 아이템들, 숫자는 순서대로 증가 X -> 어떻게 뽑은건지 모르겟다리

image 아이템에 대한 feature들 feature_category_id feature_value_id 존재.

image 총 23691개의 아이템. -> 2 ~ 28143 73개의 feaature category -> 1 ~ 73 890개의 feature value -> 얘는 1~ 905

아이템당 feature category & feature value

image image 아이템당 최소 2개 평균 19.9 최대 33개의 feature category & feature value id 보유

image

24개 가지고 있는 아이템이 제일 많고 2개 가지고 있는 아이템이 510개 33개 가지고 있는 아이템이 1개

학습 세션당 아이템

image

image 최소 하나의 아이템 확인 평균 4.7개의 아이템 확인 최대 100개의 아이템 확인

image

하나의 아이템만 확인 하는 경우가 약 7프로 생각보다 세션당 아이템 많이 없을지도..?

리더보드 test 세션당 아이템

image

image 최소 하나의 아이템 확인 평균 4.6개의 아이템 확인 최대 72개의 아이템 확인

image

여기도 머.. 비슷한느낌

test final 세션당 아이템

image

image 최소 하나의 아이템 확인 평균 4.5개의 아이템 확인 최대 74개의 아이템 확인

image

그래도 세션 당 확인한 아이템 개수의 분포는 train test 다 비슷한듯?

아이템의 feature 가 없는 경우는 없는듯하다.

ili0820 commented 2 years ago

image

train session 에서 존재하지 않았던 아이템이 11개가 test session에서 등장! zeroshot..????

ili0820 commented 2 years ago

image 세션 안에 구매한 아이템이 있진 않음

ili0820 commented 2 years ago

image 같은 아이템을 다시보는 경우도 존재

ili0820 commented 2 years ago

image 284972개의 세션 동안 이러한 일들이 발생. 약 30%임으로 무시하면 안되지 않을까? 그냥 implicit 말고 가중치를 주어 rating으로 해야할까?