about this paper

author: Siddhartha Banerjee, Cem Akkaya, Francisco Perez-Sorrosal, Kostas Tsioutsiouliklis link: https://www.aclweb.org/anthology/P19-1633

가설

전이학습을 이용하는 것으로 부모-자식 클래스의 의존관계를 학습하기 쉬워질 것. 왜냐 하면, 랜덤으로 초기화된 파라메터로 훈련을 시작하는 것 보다 부모 클래스를 훈련한 것으로 얻은 파라메터를 자식 클래스 훈련 시 초기값으로 이용하면 더 좋은 시작이 되기 때문이다.

지금까지는

문제점

차원 수가 큰(라벨 수가 큰) 공간에서 멀티 라벨을 예측하는 것은 가중치를 최적화하기 힘들다 (Krawczyk, 2016) .

모델

입력 시퀀스를 세 갈래로 나누어 concatenate한다.

1) bi-GRU -> 어텐션 2) MaxPool 3) MeanPool

concat한 벡터는 FC레이어로 넘겨 확률분포(시그모이드 활성함수)를 얻는다. 오차함수는 멀티라벨 태스크이므로 Binary Cross Entropy를 사용한다. 최적화는 Adam을 이용한다. 상세한 하이퍼파라메터는 논문을 참고.

how to

부모 클래스가 P1 ~ P12로 나뉘어져 있고, 자식 클래스가 C1 ~ C12로 나뉘어져 있을 때, 가장 먼저 P1을 위한 이진 분류기를 훈련한다. 다음으로 C1 이진 분류기를 P1으로 학습한 분류기의 마지막 파라메터로 초기화해 훈련한다. C1 분류기를 훈련한 뒤 C12 분류기를 C1 분류기의 마지막 파라메터로 초기화해 훈련한다. 일련의 작업(?)을 반복(?)한다.

setting

Bowman et al., 2015와 같이 전이된 파라메터에는 낮은 학습률(0.0005)을 적용하고 마지막 FC레이어의 출력값에는 높은 학습률(0.001)을 적용한다.
Hu et al., 2014와 같이 가장 상위 클래스의 분류기를 학습한 후의 엠베딩 레이어는 고정한다. 이는 과학습을 방지한다.
user-provided 가중치를 사용하지만 모든 카테고리 조합 경우의 수만큼 가중치의 개수를 만들면 계산량이 2-e103이 되기 때문에 이진 모델을 훈련할 때 얻은 최적화된 클래스 가중치를

데이터셋

Reuters dataset(RCV-v1)

평가방법

micro-F1, macro-F1

코드

파이토치를 사용했으나 코드는 공개하지 않음.

magicpieh28 / Paper-Summary

Hierarchical Transfer Learning for Multi-label Text Classification(2019) #24