HyejiYu / PatTuning

MIT License
0 stars 4 forks source link

Gmarket 크롤링 코드 & Airflow on k8s 구성 파일 #11

Closed g-hyeong closed 1 month ago

g-hyeong commented 1 month ago

├── crawling │ ├── Gmarket │ │ ├── crawl_gmarket: base url 정보를 토대로 Scrapy 크롤링 후 제품 가격 정도 db 삽입 │ │ └── get_base_urls: 지마켓 카테고리 정보 수집 후 mongodb에 카테고리 정보와 base url에 필요한 정보 삽입

├── k8s │ ├── dags │ │ ├── crawl_gmarket.py: 지마켓 분산 크롤링 DAG │ │ └── requirements.txt: 클러스터 내부 airflow에 필요한 requirements │ ├── dockerfiles: KubernetesPodOperator를 위한 dockerfile │ │ └── gmarket │ │ ├── crawl_gmarket: base url 정보를 토대로 Scrapy 크롤링 후 제품 가격 정도 db 삽입 │ │ └── get_base_urls : 지마켓 카테고리 정보 수집 후 mongodb에 카테고리 정보와 base url에 필요한 정보 삽입 │ └── values.yaml: Airflow on k8s 구성 yaml파일