전이학습을 이용하는 것으로 부모-자식 클래스의 의존관계를 학습하기 쉬워질 것. 왜냐 하면, 랜덤으로 초기화된 파라메터로 훈련을 시작하는 것 보다 부모 클래스를 훈련한 것으로 얻은 파라메터를 자식 클래스 훈련 시 초기값으로 이용하면 더 좋은 시작이 되기 때문이다.
지금까지는
문제점
차원 수가 큰(라벨 수가 큰) 공간에서 멀티 라벨을 예측하는 것은 가중치를 최적화하기 힘들다 (Krawczyk, 2016) .
관련 연구법
1
라벨간 의존성을 알아내는 방법에는 1) 훈련 데이터에서 라벨간 연관성을 탐색 2) 미리 정의된 라벨 계층구조를 이용 하는 것이 있는데 본 연구에서는 2번을 따른다.
2
미리 학습된 모델을 사용하는 연구의 관점에는 1) 관련된 태스크간 지도학습 훈련으로 전이한 지식을 이용 2) 커다란 비지도된 코퍼스를 이용해 LM을 훈련한 뒤 지도적으로 튜닝한 태스크를 전이하는 방법 이 있는데 본 연구에서는 1번을 따른다.
모델
입력 시퀀스를 세 갈래로 나누어 concatenate한다.
1) bi-GRU -> 어텐션 2) MaxPool 3) MeanPool
concat한 벡터는 FC레이어로 넘겨 확률분포(시그모이드 활성함수)를 얻는다.
오차함수는 멀티라벨 태스크이므로 Binary Cross Entropy를 사용한다.
최적화는 Adam을 이용한다.
상세한 하이퍼파라메터는 논문을 참고.
how to
부모 클래스가 P1 ~ P12로 나뉘어져 있고, 자식 클래스가 C1 ~ C12로 나뉘어져 있을 때, 가장 먼저 P1을 위한 이진 분류기를 훈련한다. 다음으로 C1 이진 분류기를 P1으로 학습한 분류기의 마지막 파라메터로 초기화해 훈련한다. C1 분류기를 훈련한 뒤 C12 분류기를 C1 분류기의 마지막 파라메터로 초기화해 훈련한다. 일련의 작업(?)을 반복(?)한다.
setting
Bowman et al., 2015와 같이 전이된 파라메터에는 낮은 학습률(0.0005)을 적용하고 마지막 FC레이어의 출력값에는 높은 학습률(0.001)을 적용한다.
Hu et al., 2014와 같이 가장 상위 클래스의 분류기를 학습한 후의 엠베딩 레이어는 고정한다. 이는 과학습을 방지한다.
user-provided 가중치를 사용하지만 모든 카테고리 조합 경우의 수만큼 가중치의 개수를 만들면 계산량이 2-e103이 되기 때문에 이진 모델을 훈련할 때 얻은 최적화된 클래스 가중치를
about this paper
author: Siddhartha Banerjee, Cem Akkaya, Francisco Perez-Sorrosal, Kostas Tsioutsiouliklis link: https://www.aclweb.org/anthology/P19-1633
가설
전이학습을 이용하는 것으로 부모-자식 클래스의 의존관계를 학습하기 쉬워질 것. 왜냐 하면, 랜덤으로 초기화된 파라메터로 훈련을 시작하는 것 보다 부모 클래스를 훈련한 것으로 얻은 파라메터를 자식 클래스 훈련 시 초기값으로 이용하면 더 좋은 시작이 되기 때문이다.
지금까지는
문제점
차원 수가 큰(라벨 수가 큰) 공간에서 멀티 라벨을 예측하는 것은 가중치를 최적화하기 힘들다 (Krawczyk, 2016) .
관련 연구법
1
라벨간 의존성을 알아내는 방법에는 1) 훈련 데이터에서 라벨간 연관성을 탐색 2) 미리 정의된 라벨 계층구조를 이용 하는 것이 있는데 본 연구에서는 2번을 따른다.
2
미리 학습된 모델을 사용하는 연구의 관점에는 1) 관련된 태스크간 지도학습 훈련으로 전이한 지식을 이용 2) 커다란 비지도된 코퍼스를 이용해 LM을 훈련한 뒤 지도적으로 튜닝한 태스크를 전이하는 방법 이 있는데 본 연구에서는 1번을 따른다.
모델
입력 시퀀스를 세 갈래로 나누어 concatenate한다.
concat한 벡터는 FC레이어로 넘겨 확률분포(시그모이드 활성함수)를 얻는다. 오차함수는 멀티라벨 태스크이므로 Binary Cross Entropy를 사용한다. 최적화는 Adam을 이용한다. 상세한 하이퍼파라메터는 논문을 참고.
how to
부모 클래스가 P1 ~ P12로 나뉘어져 있고, 자식 클래스가 C1 ~ C12로 나뉘어져 있을 때, 가장 먼저 P1을 위한 이진 분류기를 훈련한다. 다음으로 C1 이진 분류기를 P1으로 학습한 분류기의 마지막 파라메터로 초기화해 훈련한다. C1 분류기를 훈련한 뒤 C12 분류기를 C1 분류기의 마지막 파라메터로 초기화해 훈련한다. 일련의 작업(?)을 반복(?)한다.
setting
Bowman et al., 2015와 같이 전이된 파라메터에는 낮은 학습률(0.0005)을 적용하고 마지막 FC레이어의 출력값에는 높은 학습률(0.001)을 적용한다.
Hu et al., 2014와 같이 가장 상위 클래스의 분류기를 학습한 후의 엠베딩 레이어는 고정한다. 이는 과학습을 방지한다.
user-provided 가중치를 사용하지만 모든 카테고리 조합 경우의 수만큼 가중치의 개수를 만들면 계산량이 2-e103이 되기 때문에 이진 모델을 훈련할 때 얻은 최적화된 클래스 가중치를
데이터셋
Reuters dataset(RCV-v1)
평가방법
micro-F1, macro-F1
코드
파이토치를 사용했으나 코드는 공개하지 않음.
다음에 관련해서 읽을 것
Universal language model fine-tuning for text classification. 2018 Large-scale hierarchical text classification with recursively regularized deep graph-cnn. 2018 Hierarchical attention networks for document classification. 2016