chwijung-project / Employment

S3에 저장된 데이터 주기적으로 Employment로 도메인 변경 후 MongoDB 저장
0 stars 0 forks source link

중복체크한 채용리스트에서 중복 아닌 공고만 세부내용 크롤링 *세부내용 설명란에 첨부 #15

Open creaton60 opened 1 month ago

creaton60 commented 1 month ago
컬럼명 | 한글컬럼 | 컬럼 설명 -- | -- | -- recruit (recru_title) | 공고명 | 채용공고에서 보여주는 직무 타이틀 company (recru_company) | 회사명 |   region (recru_region) | 지역 | oo시 oo구 까지 지역 데이터 tag | 태그 | 회사 홍보용 태그 intro | 회사소개 |   job | 모집부문 | 공고명과 동일 main | 주요업무 |   require | 자격요건 |   thanks | 우대사항 |   give | 복지 |   url (recru_url) | URL | 공고 클릭시 여기로 이동. common | 공통요건 | 거의 공백 occasional | 상시채용 유무 | T/F(T: 공고 상시 채용, F: 마감기한 있음) startDate | 공고 시작일 | 채용 공고 페이지에서 정보가 있으면 가져옴.(공고 띄워주는 기준이 아님) endDate (recru_end_date) | 공고 마감일 | 회사에서 지정한 공고 마감일, 마감임박순 기준 데이터, Datetime closed (recru_closed_date) | 공고 닫힌 날짜 | Datetime crawlingDate (recru_crawling_date) | 크롤링한 날짜 | Datetime crawlingTxt | 크롤링 검색어 | 크롤링할때 사용한 검색어 (컴퓨터비전, computervision, 딥러닝, deeplearning, 머신러닝, machinelearning) crawlingSite (recru_crawling_site) | 크롤링 사이트 | 크롤링 해 온 사이트 (원티드, 점핏) jobtitle | 직무명+Threshold+second_lv | ex)[{'Machinelearning/Deeplearning enginner': [45, 'Nan'], 'Data enginner': [35, 'Nan'], 직접 사용X jobtitle_filter (job_names) | 직무명 | jobtitle Threshold 기준으로 정리한 직무명(1~2개) 'Not AI', '데이터 사이언티스트', '데이터 엔지니어', '머신러닝/딥러닝 리서처', '머신러닝/딥러닝 엔지니어', 'AI 서비스 개발자', 'AI 서비스 기획자', 'AI 아티스트' *Not AI 데이터는 제거 second_lv (job_sub_names) | 2차 분류 | 머신러닝 리서처 2차 분류 'computer vision', 'computer graphics', 'natural language proc', 'robotics', 'speech/sigProc', 'data mining', 'automated planning', 'knowledge representation', 'human-computer interaction’ | | logo (recru_logo) | 회사로고 | url 형태 |