연구 목적: state-of-the-art를 기록하는 것이 아니라 자연언어처리에서 활용되는 전이학습을 위한 수법과 환경설정 등을 비교하기 위한 것.
태스크:
INIT) 의미 면에서 비슷하거나 동일한 도메인이지만 데이터셋이 다른 경우 사이즈가 큰 데이터셋을 소스 도메인(S)으로 작은 데이터셋을 타겟 도메인(T)으로 하여 S를 먼저 훈련한 뒤 여기서 얻은 파라메터로 초기화한 모델로 T를 분류하는 것
MULT) 의미 면에서 차이를 보이지만 구조, 분류관계가 비슷한 데이터셋을 가졌을 경우 S와 T를 멀티태스크처럼 동시에 학습하는 것
연구 질문:
RQ1) 자연언어처리 분야에 있어서 비슷한 혹은 전혀 다른 도메인을 갖는 데이터셋을 가지고 NN이 얼마나 유용하게 정보를 전이할 수 있는가
RQ2) 자연언어처리 분야에서 사용되는 NN 모델의 각 레이어간의 정보는 얼마나 전이될 수 있는가
RQ3) INIT과 MULT는 각각 얼마나 정보를 잘 전이할 수 있고 INIT+MULT는 유용한가
experiments
LSTM-RNN: 감정 혹은 질문을 분류하기 위한 모델. 마지막은 softmax. 데이터셋으로 IMDB, MR, QC 사용. 자세한 내용은 논문 참고.
CNN-pair: 두 문장(한 쌍)간의 관계를 분류하기 위한 모델. Siamese 구조를 차용했으며 window 크기는 5이고 max pooling한다. 마지막은 softmax. 데이터셋으로 SNLI, SICK, MSRP 사용. 자세한 내용은 논문 참고.
transfer methods
INIT) 파라메터 전이 후에는 기본적으로 타겟 도메인에서 파라메터를 수정하지 않겠지만(T를 훈련하지 않음) T에서 라벨링 데이터가 사용 가능하다면 파라메터를 fine-tuning할 것이다. 이 논문에서 파라메터 고정은 잠금 아이콘을 수정은 열림 아이콘을 사용해 표현하고 있다. 다른 많은 INIT 태스크를 위한 수법들은 비지도학습으로 진행되지만 이 논문은 지도학습으로 미리 훈련하는 방식을 택했다. 즉 라벨링된 소스 도메인의 지식을 전이한다.
MULT) 람다 파라메터를 통해 T와 S의 비용함수를 switch 수 있게 했다.
INIT+MULT) 먼저 S를 훈련한 후 여기서 얻은 파라메터로 초기화한 모델로 S와 T를 동시에 학습한다.
results
실험1/INIT) IMDB-> MR. 엠베딩, 은닉층을 열림으로 하고 출력층을 위한 파라메터는 랜덤 초기화하는 방식이 81.4로 가장 성능이 좋았다. 반면에 엠베딩, 은닉층, 출력층 전부 잠금으로 한 경우가 73.6으로 가장 성능이 낮았다.
실험1/MULT) IMDB->QC. 엠베딩은 고정하고 은닉층과 출력층 모두 랜덤 초기화 한 경우가 93.2로 가장 성능이 좋았지만 엠베딩과 은닉층은 잠구고 출력층을 랜덤초기화 한 경우에는 55.2로 가장 성능이 나빴다.
실험2/INIT) SNLI -> SICK. 전체 층을 열림으로 해두었을 때가 77.6으로 가장 성능이 좋았고 반면에 전체 층을 잠구었을 때가 43.1로 가장 성능이 나빴다.
실험2/MULT) SNLI -> MSRP. 엠베딩은 열어두고 나머지 층을 랜덤초기화 했을 때 69.9로 가장 성능이 좋았고 엠베딩과 은닉층은 고정하고 출력층을 랜덤초기화 한 경우는 66.4로 성능이 가장 나빴다.
즉, INIT에서 특히 IMDB -> MR과 같은 감정 분류 태스크에서는 엠베딩과 은닉층 두 개가 중요한 역할을 했다. MULT에서 엠베딩은 전이가능성을 관측할 수 있는 파라메터일 뿐이다. 또한 정보를 전이하는 최적의 타이밍은 S를 꽤 적은 epoch일 때였다. 다시 말해, 정확도(accuracy)의 증가 속도가 더뎌질 때 전이하는 것이 가장 좋았다. 학습률에 관해서는 0.3과 같이 학습률이 큰 경우 정확도는 급격하게 좋아졌고 꽤 빠른 epoch에서 정점을 찍었다. 특히 INIT에서 커다란 학습률은 전이된 지식을 손상시키지 않았지만 훈련 절차를 급발진 시켰다. INIT+MULT는 딱히 더 좋아지거나 하는 일은 없었다.
about this paper
Author: Lili Mou, Zhao Meng, Rui Yan, Ge Li, Yan Xu, Lu Zhang, Zhi Jin Link: https://www.aclweb.org/anthology/D16-1046
연구 목적: state-of-the-art를 기록하는 것이 아니라 자연언어처리에서 활용되는 전이학습을 위한 수법과 환경설정 등을 비교하기 위한 것.
태스크:
연구 질문:
experiments
LSTM-RNN: 감정 혹은 질문을 분류하기 위한 모델. 마지막은 softmax. 데이터셋으로 IMDB, MR, QC 사용. 자세한 내용은 논문 참고.
CNN-pair: 두 문장(한 쌍)간의 관계를 분류하기 위한 모델. Siamese 구조를 차용했으며 window 크기는 5이고 max pooling한다. 마지막은 softmax. 데이터셋으로 SNLI, SICK, MSRP 사용. 자세한 내용은 논문 참고.
transfer methods
INIT) 파라메터 전이 후에는 기본적으로 타겟 도메인에서 파라메터를 수정하지 않겠지만(T를 훈련하지 않음) T에서 라벨링 데이터가 사용 가능하다면 파라메터를 fine-tuning할 것이다. 이 논문에서 파라메터 고정은 잠금 아이콘을 수정은 열림 아이콘을 사용해 표현하고 있다. 다른 많은 INIT 태스크를 위한 수법들은 비지도학습으로 진행되지만 이 논문은 지도학습으로 미리 훈련하는 방식을 택했다. 즉 라벨링된 소스 도메인의 지식을 전이한다.
MULT) 람다 파라메터를 통해 T와 S의 비용함수를 switch 수 있게 했다.
INIT+MULT) 먼저 S를 훈련한 후 여기서 얻은 파라메터로 초기화한 모델로 S와 T를 동시에 학습한다.
results
실험1/INIT) IMDB-> MR. 엠베딩, 은닉층을 열림으로 하고 출력층을 위한 파라메터는 랜덤 초기화하는 방식이 81.4로 가장 성능이 좋았다. 반면에 엠베딩, 은닉층, 출력층 전부 잠금으로 한 경우가 73.6으로 가장 성능이 낮았다.
실험1/MULT) IMDB->QC. 엠베딩은 고정하고 은닉층과 출력층 모두 랜덤 초기화 한 경우가 93.2로 가장 성능이 좋았지만 엠베딩과 은닉층은 잠구고 출력층을 랜덤초기화 한 경우에는 55.2로 가장 성능이 나빴다.
실험2/INIT) SNLI -> SICK. 전체 층을 열림으로 해두었을 때가 77.6으로 가장 성능이 좋았고 반면에 전체 층을 잠구었을 때가 43.1로 가장 성능이 나빴다.
실험2/MULT) SNLI -> MSRP. 엠베딩은 열어두고 나머지 층을 랜덤초기화 했을 때 69.9로 가장 성능이 좋았고 엠베딩과 은닉층은 고정하고 출력층을 랜덤초기화 한 경우는 66.4로 성능이 가장 나빴다.
즉, INIT에서 특히 IMDB -> MR과 같은 감정 분류 태스크에서는 엠베딩과 은닉층 두 개가 중요한 역할을 했다. MULT에서 엠베딩은 전이가능성을 관측할 수 있는 파라메터일 뿐이다. 또한 정보를 전이하는 최적의 타이밍은 S를 꽤 적은 epoch일 때였다. 다시 말해, 정확도(accuracy)의 증가 속도가 더뎌질 때 전이하는 것이 가장 좋았다. 학습률에 관해서는 0.3과 같이 학습률이 큰 경우 정확도는 급격하게 좋아졌고 꽤 빠른 epoch에서 정점을 찍었다. 특히 INIT에서 커다란 학습률은 전이된 지식을 손상시키지 않았지만 훈련 절차를 급발진 시켰다. INIT+MULT는 딱히 더 좋아지거나 하는 일은 없었다.
code
https://sites.google.com/site/transfernlp/