Open sujeongim opened 2 years ago
그렇게 구현한 이유는 우선 논문의 수식을 그대로 구현하기 위해서인 것으로 보입니다.
output만 넣어서는 진행해보겠습니다!
-> 파라미터 수가 엄청나게 차이가 납니다..
output, embedding vector, context vector 를 concat 했을 경우 학습 과정
output만 linear layer 통과해서 보냈을 때 학습 과정
-> 음 loss 는 크게 다르진 않지만 PPL에서 차이가 많이 나네요..무슨 의미일까요..?
output, embedding vector, context vector 를 concat 했을 경우 attention map
0338-5a307613-ea9a-4ae6-84aa-eda85e208652.png">
output만 linear layer 통과해서 보냈을 때 attention map
보니까 test가 shuffle 되어있어서 문장이 다른데ㅠ output만 내보낸 경우 전체적으로 attention map이 제대로 그려지지 않았습니다.
나연님 코드 사용했습니다ㅎㅎ감사합니당
output, embedding vector, context vector 를 concat 했을 경우 번역
output만 linear layer 통과해서 보냈을 때 번역
번역 성능 차이가 꽤 납니다..!
Seq2Seq with Attention 의 pytorch tutorial 구현 예시를 보면,
decoder의 forward에서 output만이 아니라 output, embedding vector, context vector를 concat하고 linear layer를 통과하여 최종 결과를 내보냅니다.
output 만 내보내지 않고 모두 concat하여 내보내는 이유가 무엇일까요? 또한 output만 넣으면 어떻게 될까요?