heehehe / job-trend

[DE4E] 개발자 채용공고 데이터 추출 파이프라인 구축 및 응용 프로젝트
https://job-trend.streamlit.app
17 stars 2 forks source link

잡플래닛 크롤링 #19

Closed heehehe closed 7 months ago

dbsgh3344 commented 7 months ago

점핏과 다른 몇 가지 컬럼 제외하고는 코드가 어느정도 완성된거 같습니다! tag_id,tag_name 복지 관련한 컬럼들이 잡플래닛에서는 포맷이 통일되질 않네요.. tokenizing해서 범주화를 해보는 건 어떨지 막연하게 생각해보고 있습니다. 그리고 직무 카테고리가 점핏과 완전히 핏하진 않아서 현재 카테고리 id 같은 컬럼은 잡플래닛 크롤링에선 제외되어 있습니다. 이렇게 점핏과 약간 상이한 컬럼들 어떻게 처리할까요??

heehehe commented 7 months ago

@dbsgh3344 오 고생하셨습니다 윤호님!!

복지 부분 형식이 통일되지 않으면 일단 패스하고 추후 토크나이저 등 사용해보면 좋을 것 같네요..!😃

직무 카테고리 id는 한번 논의를 해야할 것 같은데요.. 일단 비워두고 스키마 한번 정리하고서 다시 추가하는 방향으로 하면 어떨까요? (혹시 잡플래닛은 직무 분류를 어떻게 하나요..?!)

dbsgh3344 commented 7 months ago

@heehehe 스키마를 한번 정리하는 거 좋은거 같습니다! 사람인이나 다른 사이트와도 어느정도 통일성있는 컬럼들로 구성해야 할 거 같아요! 잡플래닛에서도 개발 직무 내에서 점핏과 유사하게 직무 분류가 되어 있긴 한데 좀 더 세분화 되어있는 것도 있고 직무 이름이 완전히 같진 않네요.. 흠 직무도 토크나이징해서 범주를 정해두는게 좋을까요? 이 부분도 고려해서 스키마 정리해봐야 될 거 같습니다 희선님 시간될때 논의 하시죠!