kyeob1107 / Four-A

최종 프로젝트 팀 레포지트리
1 stars 0 forks source link

소통 창구(slack 대신용?) #4

Open kyeob1107 opened 3 months ago

kyeob1107 commented 3 months ago

말그대로 사소한 요청, 공유드려야할 내용 같은 것 어디에 해야할지 모르겠을 때, 애매할 때 여기로

kyeob1107 commented 3 months ago

@Joy-9707 @neddy0318 @ggieun 와디즈 창에서 어떤 정보들 가져오면 좋을 것 같다 알려주세요~

Joy-9707 commented 3 months ago

음.. 저희 일단 어떤 카테고리의 셀러를 모집할지 확실히 이야기 나온게 아니어서

neddy0318 commented 3 months ago

@Joy-9707 @neddy0318 @ggieun 와디즈 창에서 어떤 정보들 가져오면 좋을 것 같다 알려주세요~

제가 생각하기에도...일단은 와디즈 내에서 여러 내부 경로들???다양하게 시행해보시면 되지 않을까 싶네요

Joy-9707 commented 3 months ago

스크린샷 2024-03-29 오후 5 01 50

오픈예정 창구에서

정도 어떠실까요..?

kyeob1107 commented 3 months ago

각자 자유롭게 2줄로 정리해서 작성해보기

kyeob1107 commented 3 months ago

각자 자유롭게 2줄로 정리해서 작성해보기

Return to 2020, 사업실패로 죽었다 살아나 이번엔 정신차리고 사업을 성공시키기위해 시장을 분석하여 크게 성장할 셀러들을 설득을 통해 미리 선점하여 기획을 준비

Joy-9707 commented 3 months ago

각자 자유롭게 2줄로 정리해서 작성해보기

눈떠보니 2020년으로 회귀(Regression)

상황설정:

나는 2024년 알리익스프레스 때문에 사업 실패로 스스로 목숨을 끊었다. 하지만 눈 떠보니 2020년으로 돌아간 상황 “미래를 바꾸고 말겠어! 지금부터 사업 재출발을 위해 및 미래 성장전략을 세우자!”

무엇을 할 것인가?

  1. 사업이 망한이유가 데이터의 중요성을 인지하지 못했고, 적절히 활용하지 못했다. -> 고객 세분화 및 타겟 마케팅 전략 수립
  2. 2023년들어 중국 이커머스 기업이 셀러들을 대거 선점하면서 웬만한 이커머스 기업들의 시장 경쟁력 하락 -> 신규 시장 진출을 위해 우리 이커머스 플랫폼의 고객층 특성을 철저히 분석하고, 그들의 니즈와 선호를 반영한 혁신적인 상품 및 판매자를 발굴해 나갈 것

우리가 내고 싶은 결과란?

ggieun commented 3 months ago

각자 자유롭게 2줄로 정리해서 작성해보기

Return to 2020, 사업실패로 죽었다 살아나 이번엔 정신차리고 사업을 성공시키기위해 시장을 분석하여 크게 성장할 셀러들을 설득을 통해 미리 선점하여 기획을 준비

1) Back to 2020, 세계최고 유통기업 탈환 작전 : 과거 고객 세그멘테이션을 통한 머신러닝과 24년 이커머스 시장 예습의 콜라보

2) 회귀(Regression) & 회귀( Return) : [우리쇼핑몰 이름] 2024년 시장동향, 2020년 머신러닝으로 다시 일어서다.

각자 자유롭게 2줄로 정리해서 작성해보기

neddy0318 commented 3 months ago

타임라인

역할분담

대쉬보드 및 데이터셋

kyeob1107 commented 3 months ago

기존의 dataset/Looker~에 Optimization폴더 만들고 거기에 parquet형태로 파일넣어놨습니다 commit comment에 적어두긴 했는데

# events1은 1번파일, 2는 2번파일
events = pd.concat([events1, events2]).sort_index()

이런 식으로 합쳐서 쓰시면 될 것 같고(따로 해도 지...장은 없을 것 같은데 확실하지 않아서 쓰실 땐 합쳐서 쓰시길 권장드립니다) 그리고 저처럼 각자 디렉토리안에서 파일 작업할 때는 상대경로 '../dataset/Looker Ecommerce BigQuery Dataset/Optimization/distribution_centers_optimized.parquet' 이런식으로 쓰시면 됩니다 제가 쓰고 있는 방식으론 이렇습니다

distribution_centers = pd.read_parquet('../dataset/Looker Ecommerce BigQuery Dataset/Optimization/distribution_centers_optimized.parquet')
# events_file = pd.read_parquet('../dataset/Looker Ecommerce BigQuery Dataset/Optimization/events_optimized.parquet')
inventory_items = pd.read_parquet('../dataset/Looker Ecommerce BigQuery Dataset/Optimization/inventory_items_optimized.parquet')
orders = pd.read_parquet('../dataset/Looker Ecommerce BigQuery Dataset/Optimization/orders_optimized.parquet')
order_items = pd.read_parquet('../dataset/Looker Ecommerce BigQuery Dataset/Optimization/order_items_optimized.parquet')
products = pd.read_parquet('../dataset/Looker Ecommerce BigQuery Dataset/Optimization/products_optimized.parquet')
users = pd.read_parquet('../dataset/Looker Ecommerce BigQuery Dataset/Optimization/users_optimized.parquet') 
events1 = pd.read_parquet("../dataset/Looker Ecommerce BigQuery Dataset/Optimization/events_optimized_divided1.parquet")
events2 = pd.read_parquet("../dataset/Looker Ecommerce BigQuery Dataset/Optimization/events_optimized_divided2.parquet")
events = pd.concat([events1, events2]).sort_index()
Joy-9707 commented 3 months ago

Events 테이블 <-> 그외 테이블 내 'Cancel' 의미 추측

여기서 나오는 all_order_dataorder_items - orders - products - inventory_items - users 를 모두 merge 한 값임 .

user_id : 83582 로 추적

2023-05-07 취소건 주목

스크린샷 2024-04-02 오후 10 12 09

events 내 해당 05-07자 기록 확인

스크린샷 2024-04-02 오후 10 14 11

여기엔 cancel 기록이 없음

스크린샷 2024-04-02 오후 10 17 44

첫번째 세션 아이디로 검색해본 결과

스크린샷 2024-04-02 오후 10 18 26

결론

Joy-9707 commented 3 months ago

의문점 몇가지..🫠

  1. created_at -> shipped_at -> delivered_at 순이라 생각했는데, shipped_at이 created 컬럼보다 더 빠른 애들이 있음.. 스크린샷 2024-04-02 오후 10 46 09

  2. order_items - orders 조인 했을때 created_at에 대한 순서

    • order_items 의 created_at이 더 빠르기도 했다가 orders 의 created_at 이 더 빠를때도 있고 제멋대로임 orders_orderitems = pd.merge(order_items, orders, left_on = ['order_id', 'user_id'], right_on = ['order_id', 'user_id'], how ='left', suffixes=('_item', '_order')) orders_orderitems.head(20) 스크린샷 2024-04-02 오후 10 48 01
neddy0318 commented 3 months ago

processing 이면 shipped_at도 delivered_at도 returned_at도 없음

status가 processing인 것을 추출한 것을 기반, user별 order_id수 카운트하기

processing = order_items.query('status == "Processing"').reset_index() processing_t = pd.DataFrame(processing.groupby(['user_id', 'order_id'])['sale_price'].sum()).reset_index() #중간에 집계값 안 구하면 order_id카운트가 중복되게 되어버림;;

processing_t로 전체 order_id 수 볼 수 있음

processing_temp = processing_t.groupby('user_id')['order_id'].count().reset_index()

processing인 user의 주소 정보 확인 테이블 만들기

processing_user_info = pd.merge(processing_temp, user_temp, left_on='user_id', right_on='id', how = 'left')

processing_user_info.groupby(['country'])['order_id'].count().reset_index()

neddy0318 commented 3 months ago

K-058 국가별로 status비중 확인해봤으나 별다른 특징 없었음.