Open long8v opened 1 year ago
paper
왜 잘되는가? 1) 한 태스크에 대한 오버피팅을 막으며 2) 데이터 어그멘테이션 효과 3) "inductive bias"를 학습 4) 좋은 feature를 학습
보통 생각하는 MTL 모델 구조
각각 태스크에 맞는 네트워크를 쌓고 각 네트워크의 파라미터가 너무 달라지지 않도록 L2 norm loss를 부과
Deep Relationship Networks FCN에 matrix prior를 부과해서 모델이 태스크 간의 relationship을 학습할 수 있게 함
Cross-stitch network
태스크별로 별도의 네트워크가 있고 각 네트워크의 파라미터가 학습 가능한 $\alpha$만큼 linear combination 되도록
각 task의 Uncertainty를 측정하고 multi-task loss function에 상대적인 weight 추가 -> 이거 읽으면 좋을듯!
BERT가 정말 파괴적이구나 느낌 ㅋㅋ
paper
Details
Multi-task Learning
왜 잘되는가? 1) 한 태스크에 대한 오버피팅을 막으며 2) 데이터 어그멘테이션 효과 3) "inductive bias"를 학습 4) 좋은 feature를 학습
hard parameter sharing vs soft parameter sharing
보통 생각하는 MTL 모델 구조
각각 태스크에 맞는 네트워크를 쌓고 각 네트워크의 파라미터가 너무 달라지지 않도록 L2 norm loss를 부과
Recent work on MTL for deep learning
Deep Relationship Networks FCN에 matrix prior를 부과해서 모델이 태스크 간의 relationship을 학습할 수 있게 함![image](https://user-images.githubusercontent.com/46675408/214749521-71a0e948-a0b6-400c-9294-49c2f7833d3d.png)
Cross-stitch network
태스크별로 별도의 네트워크가 있고 각 네트워크의 파라미터가 학습 가능한 $\alpha$만큼 linear combination 되도록
각 task의 Uncertainty를 측정하고 multi-task loss function에 상대적인 weight 추가 -> 이거 읽으면 좋을듯!
Auxiliary tasks
걍 느낀 점
BERT가 정말 파괴적이구나 느낌 ㅋㅋ