hyeonkimmm / gift-data-backend-repo

gift project - naver shopping data etl, backend process code repo
2 stars 0 forks source link

네이버 쇼핑 API 남길 데이터 #2

Closed hyeonkimmm closed 2 years ago

hyeonkimmm commented 2 years ago

image ['title', 'link', 'image', 'lprice', 'hprice', 'mallName', 'productId', 'productType', 'brand', 'maker', 'category1', 'category2', 'category3', 'category4'] 일단 네이버 쇼핑 api에 특정 단어로 검색할 시 아래 데이터를 불러올 수 있다. 위 데이터를 바탕으로 앱상 에서 정보를 제공하도록 할텐데, 문제는 위의 데이터 중 무엇을 남겨야 할지 모르겠다.

  1. 꼭 필요한 데이터 👍

    • title : 사용자에게 제품 명 제공 (추가작업 : b 태그 삭제)
    • link : 사용자가 해당 상품 구매 시 링크 제공 (추가작업: https://search.shopping.naver.com/catalog/{productid}로 링크 변환)
    • image : 사용자에게 해당 상품 이미지 제공 (추가작업 ? : url 이미지 데이터 자체를 저장해야 할 수도 있음)
    • lprice : 사용자에게 가격 정보 제공 (추가작업 : 해당 데이터의 평균 가격을 저장해야 함, astype 필요)
  2. 삭제할 데이터 👎

    • hprice : hprice는 대부분 빈 데이터라 굳이 필요 X image
    • mallName : mall 이름은 대부분 네이버라 굳이 분석에도 필요 없을 것으로 판단 image
    • productType : 역시 대부분 1 이므로 삭제
      image
  3. 애매한 데이터 😕

    • productId : 링크 수정 이후 굳이 필요가 있을까? - 나중에 상품 코드를 통해 인기상품으로 분석하는 코드를 짤 때 수월할 것 같긴함..
    • brand : 상품의 브랜드 명 있으면 나중에 분석에 쓸모가 있을까? image
    • maker : 뭔가 브랜드 보다 더욱 쓸모 없어 보이긴 한다. image
    • category : 쓸모가 있을까? 일단 남겨두는 게 좋을 것 같기도 하고. image
hyeonkimmm commented 2 years ago

lprice 를 통해 평균과 분산, 표준편차를 통해 가격대의 범위를 지정하는 코드도 추가해서 활용해야겠다.

hyeonkimmm commented 2 years ago

image 일단 데이터를 1차적으로 정리해봤다. 고민이 하나 생겼다.

  1. 랭킹정보, 상품 타이틀, 링크, 이미지, 가격까지는 앱 상에서 필요한 정보(사용자가 필요한 정보)긴 한데
  2. 평균, 표준편차, 최소, 최대 가격에 관련한 데이터 + 카테고리 데이터는 해당 상품에(ex - 세루티 트위드 원피스) 국한된 정보가 아닌, 원피스 전체에 관한 데이터인데 이것을 따로 빼서 상품 테이블에 저장 해 놓는게 좋지 않을까? 하는 생각이 들었다.

내 생각대로 하는 게 맞는 것 같다. 원피스를 사용자가 클릭 했을 때 보여주는 Ranking 상품 정보(1, 2, 3, 4, 5) 칼럼에 저렇게 json 형태로 데이터를 정리하고, 넣어주는 방향으로~

hyeonkimmm commented 2 years ago

image

평균 가격과 표준편차를 활용해서 가격대의 범위를 정했는데, 트렌치 코트와 같은 가격차이가 심한 상품에 대해서 평균 - 표준편차의 값이 음수가 나오는 경우가 있었다. image 이 경우는 최저가와 최대가 차이가 큰 차이를 보였다.

또한, 이 방식으로 코드를 작성했을 때 사용자가 예산을 50만원으로 선택했는데, 실제 추천 상품의 가격이 이를 넘을 수 있는 문제점이 존재한다.

그렇다고 최저가, 최대가로 가격대를 설정하면 범위가 너무 넓어져 버려서 가격대 설정의 의미가 없다.

고민했을 때의 결론은, 실제 제품의 가격까지 고려하게 되면 제공할 수 있는 범위 폭이 너무 줄기 때문에 일단 이대로 가기로 하였다.

또한 최저가가 음수가 나오는 경우는 제품마다 변동폭이 큰 것이므로 그냥, 평균가로 최저가를 대체하기로 하였다.