Closed ddusi closed 4 years ago
DataFrame을 DB에 알맞게 쉽게 넣어주는 라이브러리를 사용하려고 한다.
간단하게 dict형태로 넣을 수 있지만, 이렇게 된다면 불러올때도 dataFrame화 하는 시리얼라이저를 만들어야한다. 컨버터 단계에서 쉽게 해주는 라이브러리가 있다면 사용하는게 맞다.
django가 시작될때 이 쓰레드가 같이 돌아야할 이유를 못찾았다. 그러므로 커멘드화 하여 따로 스크립트를 실행시킬 수 있게 독립적으로 분리하였다. Covid 폴더에서
python multi_process_scheduler start
시작시 나오는 출력문
-------------------------------- Start get data --------------------------------
-------------------------------- Finish make_data --------------------------------
-------------------------------- Finish covid_confirmation --------------------------------
Context
현재 크롤링을 병렬처리를 하더라도 AWS의 메모리 한계 때문에 처리를 할 수없는 구조이다. 그러므로 DB 안에다가 모든 데이터들을 저장 할 필요가 있다. ORM 기반으로 불러오면 그만큼 메모리 사용 정도가 적어 질 것이고, 수동으로 crawring 혹은 get_info를 돌려서 주기적으로 데이터를 채워 넣는것을 목표로한다.