Open utterances-bot opened 4 years ago
훌륭한 논문 리뷰 잘 보았습니다! 혹시 논문 저자가 작성한 github코드에 관해서 Q,K,V를 모두 하나의 FC layer 를 통과시켜서 만들고 있는데 이것에 관한 내용은 transformer_Xl까지 거슬러 올라가도 나오질 않아서 왜 이렇게 쓰는지 혹시 아실까 해서 댓글 남깁니다 ㅠㅠ
안녕하세요! 제가 이해한바로는 attention 부분에서 q,k,v prjection을 하나의 linear layer만 사용한다고 하신거 같습니다. 혹시 저자코드에서 말씀하신 부분이 multihead_attn 이부분이 맞을까요?
이부분이 맞다면 head_projection 이부분과 같이 확인해보시면 될거같습니다. 여기 코드를 보시면 q,k,v에 해당되는 proj_weight를 사용하여 계산하기때문에 각각 다른 linear layer를 사용한다고 볼 수 있을거같습니다.
해당부분이 아니라면 추가댓글 남겨주세요!
XLNet: Generalized Autoregressive Pretraining for Language Understanding | Deep Learner
XLNet: Generalized Autoregressive Pretraining for Language Understanding Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le https://arxiv.org/abs/1906.08237 1. Introduction Unsupervised Representation Learning은 Large-scale의 corpora를 통해 Pre…
https://jeonsworld.github.io/NLP/xlnet/