2022-SMHRD-KDT-BigData-5 / DOVIS

업무 일정 관리를 위한 지능형 어시스턴트
0 stars 1 forks source link

KeyBERT #5

Open RanruKim opened 2 years ago

RanruKim commented 2 years ago
mmhjp commented 2 years ago

내부회의 데이터셋.txt

자체제작 데이터셋 153개

2022/07/22

mmhjp commented 2 years ago

-KoBERT : https://github.com/SKTBrain/KoBERT

-NER( Named Entity Recognition) : 개체명인식

활용 중인 DataSet : Aihub 대화셋 +자체 제작 데이터셋 네이버 챌린지 데이터셋 해양대학교 자연어처리 데이터셋

트러블슈팅

  1. 딥러닝 모델을 활용하고자 파이썬 라이브러리 버전을 맞추는 작업에서 각 라이브러리들 간의 충돌현상

화면 캡처 2022-07-16 133736

  1. 경로지정을 하였음에도 불구하고 학습되지 않는 현상

화면 캡처 2022-07-16 133922

-테스트로 진행하여서 진행 코드 예제 그대로 진행하여 동작여부만을 확인하였습니다.

화면 캡처 2022-07-16 134917

네이버 챌린지 데이터셋을 활용하여 만든 딥러닝 모델의 결과 image

우리 조에서 의도한 개체명 분류와 잘맞는 느낌이 아니기 때문에 다른 데이터셋을 학습시켜 다른 모델을 적용시켜 전처리 와 학습의 세팅값을 변경 시켜볼 예정입니다.

mmhjp commented 2 years ago

https://ratsgo.github.io/nlpbook/docs/ner/train/

mmhjp commented 2 years ago

그래서 대안으로 만들어진 모델 https://ratsgo.github.io/nlpbook/docs/ner/train/ 예시를 이용하여 개체명 분석모델을 만들어보았다.

KcBERT를 활용한 개체명 분석 모델을 만드는 예제를 참고하여, 기존의 KcBERT에 말뭉치 데이터셋을 전이학습시켜 개체명분석을 하는 딥러닝모델을 구현하였다.

전이학습 데이터셋 https://github.com/kmounlp/NER 한국해양대학교 자연어처리 데이터셋