Open strutive07 opened 5 years ago
h_t의 활성화는 현재 입력 와 이전 hidden layer 상태의 의 activation function 으로 계산이 되며, 마지막 순간의 출력은 시퀀스에 대한 전체 표현이 된다.
마지막 예측 층은 Softmax를 사용한다.
n은 마지막 output layer 의 뉴런 수. 분모는 입력된 전체 시퀀스 벡터의 지수 함수, 분자는 입력된 시퀀스 벡터 의 지수함수 다.
cost 함수는 cross-entropy 방식을 사용하였다. 예측 값 에 로그를 취한 것과 실제 값 의 곱을 전부 합하여 class의 개수 만큼 나눈 값으로, 목표는 예측 값 와 실제 값 의 확률 분포차이를 구하는 식이다
[image:EDD7EC68-47AB-496D-BF1B-75DC08E7605C-320-0000A3AE6241D303/56CC6514-8901-4C91-9D81-0EC3FD9EA943.png]
20 news data : 영문으로 작성된 20,000개의 신문 기사 데이터이며 주제에 따라 20개의 다른 범주로 분류된다.
Naver movie : 짧은 문장단위로 구성된 영화 평점 리뷰다.
SST-1 : 영문 영화 평점 리뷰이며, 5가지의 범주(negative, somewhat negative, neutal, somewhat positive, positive)를 가지고 있다.
SST-2 : 영문 영화 평점 리뷰이며, 긍정 및 부정(negative,positive) 의 이원 범주를 가지고 있다.
Word2vec을 활용한 RNN 기반의 문서 분류에 관한 연구
Keywords
Contribution
Proposed Architecture
h_t의 활성화는 현재 입력 와 이전 hidden layer 상태의 의 activation function 으로 계산이 되며, 마지막 순간의 출력은 시퀀스에 대한 전체 표현이 된다.
마지막 예측 층은 Softmax를 사용한다.
n은 마지막 output layer 의 뉴런 수. 분모는 입력된 전체 시퀀스 벡터의 지수 함수, 분자는 입력된 시퀀스 벡터 의 지수함수 다.
cost 함수는 cross-entropy 방식을 사용하였다. 예측 값 에 로그를 취한 것과 실제 값 의 곱을 전부 합하여 class의 개수 만큼 나눈 값으로, 목표는 예측 값 와 실제 값 의 확률 분포차이를 구하는 식이다
[image:EDD7EC68-47AB-496D-BF1B-75DC08E7605C-320-0000A3AE6241D303/56CC6514-8901-4C91-9D81-0EC3FD9EA943.png]
Dataset
20 news data : 영문으로 작성된 20,000개의 신문 기사 데이터이며 주제에 따라 20개의 다른 범주로 분류된다.
Naver movie : 짧은 문장단위로 구성된 영화 평점 리뷰다.
SST-1 : 영문 영화 평점 리뷰이며, 5가지의 범주(negative, somewhat negative, neutal, somewhat positive, positive)를 가지고 있다.
SST-2 : 영문 영화 평점 리뷰이며, 긍정 및 부정(negative,positive) 의 이원 범주를 가지고 있다.
Valuable Relative Works