Word2vec을 활용한 RNN 기반의 문서 분류에 관한 연구

한국지능시스템학회 논문지 2017.12
1st Author Name & Institute : Jung-Mi Kim(1), Ju-Hong Lee(2) 인하대학교 컴퓨터공학부 교수 인하대학교 일반대학원 컴퓨터 공학과 석사과정
Keywords
Text Mining, Information Retrieval, Deep Learning, DocumenCt lassification
Contribution
한국어 문서 분류에서 CNN 기반이 아니라 LSTM 기반으로 해서 긴 시퀀스의 논문도 잘 분류할 수 있게 함.
CNN기법은 한국어 문서 분류에 좋지 않은 성능을 보였다. word2vec, LSTM 기반 모델은 대체로 textCNN보다 좋은 성능을 보임.
Proposed Architecture
전처리 단계에서 Tokenizer 는 띄어쓰기 기준으로 문서를 토큰화 하고, 특수 문자가 제거된 단어로 Document를 재구성 함.

h_t의 활성화는 현재 입력 와 이전 hidden layer 상태의 의 activation function 으로 계산이 되며, 마지막 순간의 출력은 시퀀스에 대한 전체 표현이 된다.

마지막 예측 층은 Softmax를 사용한다.

n은 마지막 output layer 의 뉴런 수. 분모는 입력된 전체 시퀀스 벡터의 지수 함수, 분자는 입력된 시퀀스 벡터 의 지수함수 다.

cost 함수는 cross-entropy 방식을 사용하였다. 예측 값 에 로그를 취한 것과 실제 값 의 곱을 전부 합하여 class의 개수 만큼 나눈 값으로, 목표는 예측 값 와 실제 값 의 확률 분포차이를 구하는 식이다

[image:EDD7EC68-47AB-496D-BF1B-75DC08E7605C-320-0000A3AE6241D303/56CC6514-8901-4C91-9D81-0EC3FD9EA943.png]

Dataset

20 news data : 영문으로 작성된 20,000개의 신문 기사 데이터이며 주제에 따라 20개의 다른 범주로 분류된다.
Naver movie : 짧은 문장단위로 구성된 영화 평점 리뷰다.
SST-1 : 영문 영화 평점 리뷰이며, 5가지의 범주(negative, somewhat negative, neutal, somewhat positive, positive)를 가지고 있다.
SST-2 : 영문 영화 평점 리뷰이며, 긍정 및 부정(negative,positive) 의 이원 범주를 가지고 있다.