Closed Danpatpang closed 5 years ago
IMDB top 250 의 영화로 데이터셋 확정
크롤링 결과를 DynamoDB에 즉시 처리할 지, S3를 통해서 처리할지 결정해야 함.
배열로 넘어오는 정보를 '장르1, 장르2 ' 과 같이 정의하여 각각 속성으로 만들고자 하였는데 DynamoDB는 속성을 생성할때만 추가 가능하기 때문에 '장르' 라는 속성에 배열을 넣는것으로 결정
puppeteer 를 이용한 크롤링 - 문제 생김 -> 파일이 너무 커서 lambda에 업로드 되지 않음 여러 방법을 찾다가 간단히 크롤하는 것이므로 cheerio와 got을 사용하는 것으로 대체
BOM 문제 해결(https://codeday.me/ko/qa/20190507/479253.html) 영화데이터 298개 업데이트 완료
스무 고개를 위한 데이터 셋 정의 필요. 현재 lambda에서 가져오는 영화 데이터에는 정보가 부족하기 때문에 더 많은 정보 필요.