magicpieh28 / Paper-Summary

1 stars 0 forks source link

Hierarchical Transfer Learning for Multi-label Text Classification(2019) #24

Open magicpieh28 opened 5 years ago

magicpieh28 commented 5 years ago

about this paper

author: Siddhartha Banerjee, Cem Akkaya, Francisco Perez-Sorrosal, Kostas Tsioutsiouliklis link: https://www.aclweb.org/anthology/P19-1633

가설

전이학습을 이용하는 것으로 부모-자식 클래스의 의존관계를 학습하기 쉬워질 것. 왜냐 하면, 랜덤으로 초기화된 파라메터로 훈련을 시작하는 것 보다 부모 클래스를 훈련한 것으로 얻은 파라메터를 자식 클래스 훈련 시 초기값으로 이용하면 더 좋은 시작이 되기 때문이다.

지금까지는

문제점

차원 수가 큰(라벨 수가 큰) 공간에서 멀티 라벨을 예측하는 것은 가중치를 최적화하기 힘들다 (Krawczyk, 2016) .

관련 연구법

1

라벨간 의존성을 알아내는 방법에는 1) 훈련 데이터에서 라벨간 연관성을 탐색 2) 미리 정의된 라벨 계층구조를 이용 하는 것이 있는데 본 연구에서는 2번을 따른다.

2

미리 학습된 모델을 사용하는 연구의 관점에는 1) 관련된 태스크간 지도학습 훈련으로 전이한 지식을 이용 2) 커다란 비지도된 코퍼스를 이용해 LM을 훈련한 뒤 지도적으로 튜닝한 태스크를 전이하는 방법 이 있는데 본 연구에서는 1번을 따른다.

모델

입력 시퀀스를 세 갈래로 나누어 concatenate한다.

concat한 벡터는 FC레이어로 넘겨 확률분포(시그모이드 활성함수)를 얻는다. 오차함수는 멀티라벨 태스크이므로 Binary Cross Entropy를 사용한다. 최적화는 Adam을 이용한다. 상세한 하이퍼파라메터는 논문을 참고.

how to

부모 클래스가 P1 ~ P12로 나뉘어져 있고, 자식 클래스가 C1 ~ C12로 나뉘어져 있을 때, 가장 먼저 P1을 위한 이진 분류기를 훈련한다. 다음으로 C1 이진 분류기를 P1으로 학습한 분류기의 마지막 파라메터로 초기화해 훈련한다. C1 분류기를 훈련한 뒤 C12 분류기를 C1 분류기의 마지막 파라메터로 초기화해 훈련한다. 일련의 작업(?)을 반복(?)한다.

setting

데이터셋

Reuters dataset(RCV-v1)

평가방법

micro-F1, macro-F1

코드

파이토치를 사용했으나 코드는 공개하지 않음.

다음에 관련해서 읽을 것

Universal language model fine-tuning for text classification. 2018 Large-scale hierarchical text classification with recursively regularized deep graph-cnn. 2018 Hierarchical attention networks for document classification. 2016