plus1250-project / joba-Data

0 stars 1 forks source link

ML 모델 훈련 & 데이터파이프라인 구축 #17

Closed MaryYoungae closed 2 years ago

MaryYoungae commented 2 years ago

모델 훈련

기사 분류 모델 훈련(담당자: 이동빈)

1. KoBert 2. KorBert

기사 트랜드 단어 추출 모델 훈련(담당자: 양지현)

1. KoBERTopic 2. Korean Contextualized Topic Models

데이터파이프라인 구축

코드 리팩토링(담당자: 김영애)

1. article_scraping 2. 기사 정제 3. 산업군 분류 모델 & 결과 DB 전송 4. 키워드 추출 모델 & 결과 DB 전송

Airflow를 이용한 데이터 파이프라인 구현(담당자: 김영애)

1. task 분리 기준 확인

MaryYoungae commented 2 years ago

데이터 관리

기타1. Dart OpenAPI를 이용하여 수집한 기업리스트 DB저장 기타2. 훈련데이터 생성 코드 리팩토링 기타3. 생성 파일 HDFS 저장 기타4. DB 재설계