HanNayeoniee / papers-with-code

3 stars 0 forks source link

[week 4] Attention : decoder 모델의 output #7

Open sujeongim opened 2 years ago

sujeongim commented 2 years ago

Seq2Seq with Attention 의 pytorch tutorial 구현 예시를 보면,

스크린샷 2022-08-03 오후 9 55 20

decoder의 forward에서 output만이 아니라 output, embedding vector, context vector를 concat하고 linear layer를 통과하여 최종 결과를 내보냅니다.

output 만 내보내지 않고 모두 concat하여 내보내는 이유가 무엇일까요? 또한 output만 넣으면 어떻게 될까요?

sujeongim commented 2 years ago

그렇게 구현한 이유는 우선 논문의 수식을 그대로 구현하기 위해서인 것으로 보입니다.

스크린샷 2022-08-03 오후 9 57 18

output만 넣어서는 진행해보겠습니다!

sujeongim commented 2 years ago

output 만 넣은 것과 비교 실험

파라미터 수

스크린샷 2022-08-04 오후 2 11 01

-> 파라미터 수가 엄청나게 차이가 납니다..

학습 과정

-> 음 loss 는 크게 다르진 않지만 PPL에서 차이가 많이 나네요..무슨 의미일까요..?

Attention Map

Inference (실제 번역 해보기)

결론