seed-kau / Todays-Movie

오늘 몇 편 :movie_camera:
Apache License 2.0
1 stars 0 forks source link

[Lex] DynamoDB 영화 데이터 셋 구축 #23

Closed Danpatpang closed 5 years ago

Danpatpang commented 5 years ago

스무 고개를 위한 데이터 셋 정의 필요. 현재 lambda에서 가져오는 영화 데이터에는 정보가 부족하기 때문에 더 많은 정보 필요.

boribap commented 5 years ago

IMDB top 250 의 영화로 데이터셋 확정

  1. 영화정보크롤링
  2. 크롤링 결과를 바탕으로 데이터셋를 구축하는 람다 구현
Danpatpang commented 5 years ago
  1. 영화정보크롤링
웹 버전

image

모바일 버전

image


크롤링 결과를 DynamoDB에 즉시 처리할 지, S3를 통해서 처리할지 결정해야 함.

boribap commented 5 years ago

배열로 넘어오는 정보를 '장르1, 장르2 ' 과 같이 정의하여 각각 속성으로 만들고자 하였는데 DynamoDB는 속성을 생성할때만 추가 가능하기 때문에 '장르' 라는 속성에 배열을 넣는것으로 결정

boribap commented 5 years ago

puppeteer 를 이용한 크롤링 - 문제 생김 -> 파일이 너무 커서 lambda에 업로드 되지 않음 여러 방법을 찾다가 간단히 크롤하는 것이므로 cheerio와 got을 사용하는 것으로 대체

boribap commented 5 years ago

BOM 문제 해결(https://codeday.me/ko/qa/20190507/479253.html) 영화데이터 298개 업데이트 완료