Closed jms0522 closed 8 months ago
window 에서 wsl 을 사용하여 docker와 airflow를 사용하게끔 만들었다.
데이터를 수집까지는 완료했다.
전처리는 간단하게 설계하긴 했으나 추후에 더 강화해야할 필요가 있다.
PostgreDB에 insert하는 것은 구현은 완료되었다. CLI환경에서 작업하다보니 UI가 좋지는 못하다.
이후에 작업할거 DAG에서 오류발생시 다시 회복할 수 있게끔 구현 전처리 강화
docker compose up 할때마다 scheduler container 들어가서 pip install 하는 번거로움이 있음, 이거 해결할 방법 있다면 좋을듯
docker compose up 할때마다 scheduler container 들어가서 pip install 하는 번거로움이 있음, 이거 해결할 방법 있다면 좋을듯
-볼륨을 사용하거나 애초에 필요한 설정 다 한 이미지를 저장하고 그 이미지로 부터 docker compose up 하면 되는거 아녀? 아님 requirement에 적어놓거나
airflow dag 정상 작동
cli 환경에서 postgreDB 조회
PostgresDB 할때 설정할것 리눅스 기준 해당 파일을 수정하면 된다.
peer 오류가 뜬다면 md5로 변경 DB에 접속할수 있게끔 권한 줄때 해당 아이피 주소를 입력, 번거롭다면 그냥 전체 ip에 대하여 열어놔도 된다
-docker file 형성 현재 docker 이미지를 build하고 docker hub에 push하는 작업까지 완료
naver data 전처리후 DB에 삽입 성공
hidak data 전처리후 DB에 삽입 성공
postgresql DB의 conf파일을 수정하여 접근 권한을 주어야한다. ec2의 보안그룹에서도 해당 포트(5432)를 열어주어야 접속이 가능하다.
-닥터나우, 하이닥, 네이버 지식인 dag 작성 완료 및 컬럼명 통일
Dag가 실행되면 정보 수집후 정상적으로 DB에 입력된다
0228 naver qna crawling dag
@cheol2Y @stfano