NDjust / Recommend-HeadLine

Generate HeadLine Project
GNU Affero General Public License v3.0
2 stars 5 forks source link

Feature crawler #4

Closed NDjust closed 4 years ago

NDjust commented 4 years ago

db와 csv에 저장할 수 있도록 Crawler 만들어놨습니다.

db에 데이터 저장하는 거는 기간을 한 1년치 데이터를 가져올 예정이라 추후 로거를 만든 후에 서버에서 돌리겠습니다.
우선 현재까지 짠 코드를 가지고 3개월치 데이터만 크롤링해서 csv에 저장해 두겠습니다.

혹시 위 코드에 문제가 있다면 피드백 주세요.

parkseonga commented 4 years ago

확인사항1 확인사항1_1 확인사항1_2

해당 사진과 같이 반복되는 내용이 각 content마다 포함되는 것을 확인하였습니다. 해당 글자들을 제외하고 저장해야할 것 같아요!

NDjust commented 4 years ago

나중에 전처리할때 제거하면 될거 같아요 😄