ddps-lab / instacart

Kaggle Competition
0 stars 0 forks source link

#6/23 이슈정리 #3

Open jinusss opened 7 years ago

jinusss commented 7 years ago

Instacart dataset 구조

dataset_arch

jinusss commented 7 years ago

orders.csv orders.csv의 eval_set은 3가지로 구분되어 있다.

즉, orders의 test 75000개 데이터가 어떤 품목을 살 지 예측해서 제출해야함

그러나, orders.csv 와 order_products__train.csv, order_products__prior.csv의 관계가 아직 정확히 이해가 안됨.

dongwoLee commented 7 years ago

orders.csv에 여러 prior 데이터가 있고 마지막에 train이나 test데이터가 있다. prior 데이터를 가지고 모델을 만들어서 마지막 train 데이터와 비교해서 얼마나 정확한 모델인지 알 수가 있고 모델이 정확하다고 생각하면 test데이터를 기준으로 예측해서 마지막에 제출하면된다. orders.csv와 order_products_train.csv의 일치하는 order_id가 있고 그 order_id에는 무슨 상품을 샀는지 product_id가 제공되있다. 하지만 order_products_prior.csv와의 관계는 아직 모르겠음