Closed changwoomon closed 3 years ago
샐리
Scaled Dot-Product Attention에서 d_k가 아닌 sqrt(d_k)로 나눠주는 이유
펭귄
num_merges = max_vocab_size - len(idx2word) - 6
MJ
Further Questions
BLEU score가 번역 문장 평가에 있어서 갖는 단점은 무엇이 있을까요?
Attention은 이름 그대로 어떤 단어의 정보를 얼마나 가져올 지 알려주는 직관적인 방법처럼 보입니다. Attention을 모델의 Output을 설명하는 데에 활용할 수 있을까요?
❓질문
샐리
Scaled Dot-Product Attention에서 d_k가 아닌 sqrt(d_k)로 나눠주는 이유
펭귄
MJ
Further Questions
BLEU score가 번역 문장 평가에 있어서 갖는 단점은 무엇이 있을까요?
Attention은 이름 그대로 어떤 단어의 정보를 얼마나 가져올 지 알려주는 직관적인 방법처럼 보입니다. Attention을 모델의 Output을 설명하는 데에 활용할 수 있을까요?