Open RanruKim opened 2 years ago
딥러닝 적용모델 : KoBERT + NER을 이용한 개체명 인식기
https://koreascience.kr/article/CFKO201924664108265.pdf (BERT를 활용한 개체명 인식기)
BERT : BERT는 언어 표현을 사전 학습시키는 방법입니다. 사전 학습은 BERT가 Wikipedia와 같은 대량의 텍스트 소스로 처음 학습되는 방법을 나타냅니다. 이후 학습 결과를 질문 답변 및 감정 분석과 같은 다른 자연어 처리(NLP) 태스크에 적용할 수 있습니다.
-KoBERT : https://github.com/SKTBrain/KoBERT
-NER( Named Entity Recognition) : 개체명인식
활용 중인 DataSet : Aihub 대화셋 +자체 제작 데이터셋 네이버 챌린지 데이터셋 해양대학교 자연어처리 데이터셋
트러블슈팅
이부분은 현재 해결중이라서 나중에 해결되면 정리하겠습니다.
현재 두개의 현상이 개선되지 않아서 위의 딥러닝모델 개발을 중단하고 다른 방법을 이용하여 아래와 같은 결과를 얻어냈습니다.
-테스트로 진행하여서 진행 코드 예제 그대로 진행하여 동작여부만을 확인하였습니다.
네이버 챌린지 데이터셋을 활용하여 만든 딥러닝 모델의 결과
우리 조에서 의도한 개체명 분류와 잘맞는 느낌이 아니기 때문에 다른 데이터셋을 학습시켜 다른 모델을 적용시켜 전처리 와 학습의 세팅값을 변경 시켜볼 예정입니다.
그래서 대안으로 만들어진 모델 https://ratsgo.github.io/nlpbook/docs/ner/train/ 예시를 이용하여 개체명 분석모델을 만들어보았다.
KcBERT를 활용한 개체명 분석 모델을 만드는 예제를 참고하여, 기존의 KcBERT에 말뭉치 데이터셋을 전이학습시켜 개체명분석을 하는 딥러닝모델을 구현하였다.
전이학습 데이터셋 https://github.com/kmounlp/NER 한국해양대학교 자연어처리 데이터셋