HanNayeoniee / papers-with-code

3 stars 0 forks source link

[week 4] Attention : decoder 모델의 output #7

Open sujeongim opened 2 years ago

sujeongim commented 2 years ago

Seq2Seq with Attention 의 pytorch tutorial 구현 예시를 보면,

스크린샷 2022-08-03 오후 9 55 20

decoder의 forward에서 output만이 아니라 output, embedding vector, context vector를 concat하고 linear layer를 통과하여 최종 결과를 내보냅니다.

output 만 내보내지 않고 모두 concat하여 내보내는 이유가 무엇일까요? 또한 output만 넣으면 어떻게 될까요?

sujeongim commented 2 years ago

그렇게 구현한 이유는 우선 논문의 수식을 그대로 구현하기 위해서인 것으로 보입니다.

스크린샷 2022-08-03 오후 9 57 18

output만 넣어서는 진행해보겠습니다!

sujeongim commented 2 years ago

output 만 넣은 것과 비교 실험

참고로 코드 변경은 self.out layer의 input size 변경하고, concat하는 대신 output = self.out(output) 으로 변경했습니다.
깃허브에 추가로 코드 올렸습니다.

파라미터 수

output, embedding vector, context vector 를 concat 했을 경우 모델 전체 파라미터 수

스크린샷 2022-08-04 오후 2 11 01

output만 lineat layer 통과해서 보냈을 때 모델 전체 파라미터 수

-> 파라미터 수가 엄청나게 차이가 납니다..

학습 과정

output, embedding vector, context vector 를 concat 했을 경우 학습 과정
output만 linear layer 통과해서 보냈을 때 학습 과정

-> 음 loss 는 크게 다르진 않지만 PPL에서 차이가 많이 나네요..무슨 의미일까요..?

Attention Map

output, embedding vector, context vector 를 concat 했을 경우 attention map

0338-5a307613-ea9a-4ae6-84aa-eda85e208652.png">
output만 linear layer 통과해서 보냈을 때 attention map
보니까 test가 shuffle 되어있어서 문장이 다른데ㅠ output만 내보낸 경우 전체적으로 attention map이 제대로 그려지지 않았습니다.

Inference (실제 번역 해보기)

나연님 코드 사용했습니다ㅎㅎ감사합니당
output, embedding vector, context vector 를 concat 했을 경우 번역
output만 linear layer 통과해서 보냈을 때 번역
번역 성능 차이가 꽤 납니다..!

결론

output에 concat을 하는 게 성능이 훨씬 좋은 것 같습니다..ㅎㅎ
현재로 보면 학습 가능한 파라미터 수 차이가 가장 큰 것 같은데, 다른 이유도 있을까요?