brickstudy / infra-docs

infra docs
0 stars 0 forks source link

[NEW] ingest data via naver api - news #8

Closed seoyeong200 closed 3 months ago

seoyeong200 commented 3 months ago

요청 내용

네이버 API를 활용하여 검색(뉴스) 여행 키워드 수집

요건 파악

  1. 데이터 수집 스크립트 코드는 https://github.com/brickstudy/ETL 하에 새로운 경로를 생성하고 작업하면 될까요?

  2. https://github.com/brickstudy/ETL/tree/main/dags 하에 dag 파일 작성하면 될까요?

  3. 데이터 적재되는 downstream 어디일까요? (s3 bucket uri?)

  4. 현재 airflow 실행 환경을 제대로 이해하지 못해서 궁금한데, 한번 미팅 시간 잡아서 공유해주시면 좋겠습니다!

  5. 여행 단일 키워드로 25000건 request 다 쓰는지?

    • 유사어 등 다양한 키워드로 쿼리하면 더 다양하게 수집될 수 있지 않을까 하는 생각
    • 테스트해보진 않았지만 display(한번에 표시될 검색 결과 개수) 최댓값이 100-> 일일 2,500,000개 뉴스 수집될 수 있을텐데, 데이터 중복 수집이 많이 일어나지 않을까? 생각


정리


🔗 관련 링크


📌 진행상황

*진행상황에 예상 마감 일정까지 함께 기재해주세요!!

@robert-min