problem : 이전의 멀티태스크 접근법은 loss들의 가중합인데 이 가중에 따라 성능이 매우 예민하게 움직인다.
idea : output y에 대해 가우시안으로 가정하고 MLE에 따라 추정하면 $\sigma$에 의해 각 task 자체의 noise와 상대적인 weight를 구할 수 있다. 즉 model weight $W$와 task dependent $\sigma_{task}$를 같이 최적화하자.
architecture : DeepLab V3(ResNet101 -> Atrous Spatial Pyramid Pooling) + 3개 태스크에 맞는 decoder
paper
TL;DR
Details
motivation
multi-task loss weight에 따라 성능이 널뛰기 함
Architecture
Homoscedastic uncertainty as task-dependent uncertainty
뭐라는지 안와닿네.. 어쨌든 이 논문에서는 마지막 task-dependent uncertainty에 대해 측정할거임
Multi-task likelihoods
뉴럴네트워크의 아웃풋을 $f^W(x)$라고 하자. regression 문제에서는 Output을 가우시안을 따르는 걸로 가정할 수 있음
이때 $\sigma$는 Noise scalar
분류문제에 대해서는 softmax를 취해서 확률분포로 만듦
multiple-model output에 대해서는 factorize해서 이렇게 표현할 수 있음.
maximum likelihood estimation에 따르면 Log likelihood는 이렇게 쓸 수 있음
두개의 gaussian을 따르는 모델 아웃풋에 대한 Log likehlihood에 대해서는 아래와 같이 쓸 수 있음
이는 이제 $\mathcal{L}(W, \sigma_1, \sigma_2)$에 대한 minimisation 문제로 볼 수 있음
이렇게 되면 $\sigma_1$, $\sigma_2$는 각 loss 1, 2의 상대적인 Weight가 되고, 마지막 항인 $log\sigma_1\sigma_2$는 regularization term이 된다.
분류 문제에 대해서는 scalar $\sigma$로 scale된 softmax로 확장시켜서 보자.
이렇게 되면 log likelihood는 아래와 같은 꼴이 되고,
이는 다시 joint loss를 학습하는 모양이 된다.
역시 여기서도 $\sigma_1$, $\sigma_2$가 모델의 상대적인 weight로 볼 수 있다.
Result