long8v / PTIR

Paper Today I Read
19 stars 0 forks source link

[100] An Overview of Multi-Task Learning in Deep Neural Networks #109

Open long8v opened 1 year ago

long8v commented 1 year ago

image

paper

Details

Multi-task Learning

왜 잘되는가? 1) 한 태스크에 대한 오버피팅을 막으며 2) 데이터 어그멘테이션 효과 3) "inductive bias"를 학습 4) 좋은 feature를 학습

hard parameter sharing vs soft parameter sharing

보통 생각하는 MTL 모델 구조

각각 태스크에 맞는 네트워크를 쌓고 각 네트워크의 파라미터가 너무 달라지지 않도록 L2 norm loss를 부과

Recent work on MTL for deep learning

태스크별로 별도의 네트워크가 있고 각 네트워크의 파라미터가 학습 가능한 $\alpha$만큼 linear combination 되도록

각 task의 Uncertainty를 측정하고 multi-task loss function에 상대적인 weight 추가 -> 이거 읽으면 좋을듯!

Auxiliary tasks

걍 느낀 점

BERT가 정말 파괴적이구나 느낌 ㅋㅋ