Closed Jisoo-Min closed 5 years ago
add to cart 에서 어떤 유저가 제품 6개를 구매했다면 add to cart 는 1 2 3 4 5 6이 존재했을 것인데
이 중 없어진 것이 있는지 확인해 볼 필요가 있음
예를 들어 특정 user_id 와 order_id에서 1 2 3 5 6 만 존재한다면 4번 제품은 유저에 의해 삭제된 것임 / 혹은 4번제품이 test set으로 간것!!!!!
그리고 prior이랑 train은 order_products__prior.csv order_products__train.csv 에 add_to_cart_order이 있는데, test set에 관해서는 add_to_cart 가 없음
즉 삭제된 것에 대한 연관성이 있을 수 있음
이것은 sample_submission.csv의 내용임 여기서 order_id가 있고 products가 있는데 원래 우리가 생각했던 것은 '이 order_id에서 product가 재구매 될 지 여부를 예측하는 것' 이였으나 아니였음!!!
우리가 해야할 것은 order_id중 test에 해당하는 75000개의 order을 보고, 그 order에 어떤 제품이 구매될 지를 예측하느 것!!! 그리고 evaluation은 mean f1-score로 계산됨!!!!!!! 즉 너무 많이 예측해도 안되고, 적게 예측해도 안됨!!!
이 그림에서 볼 수 있는 것 처럼, 한 user에 대해서 여러 구매기록이 있으면 앞부분은 prior이고 뒷부분에 train이 붙는 식으로 eval_set의 종류를 나눔 -> 시간 순서대로 정렬되어있는지는 확인해 볼 필요가 있음 -> order_id가 순차적이지 않기 때문에
test도 마찬가지
즉 이전 구매기록을 바탕으로 최근 구매에 대해서 예측!!!!
결론 : add_to_cart 가 없는게 문제가아니라 답안 제출에 대한 이해가 부족했다!!
데이터 분석 중 특이한 것이나 새로운 아이디어 노트