utterances-bot commented 4 years ago

XLNet: Generalized Autoregressive Pretraining for Language Understanding | Deep Learner

XLNet: Generalized Autoregressive Pretraining for Language Understanding Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, Quoc V. Le https://arxiv.org/abs/1906.08237 1. Introduction Unsupervised Representation Learning은 Large-scale의 corpora를 통해 Pre…

https://jeonsworld.github.io/NLP/xlnet/

wonjunchoi-arc commented 11 months ago

훌륭한 논문 리뷰 잘 보았습니다! 혹시 논문 저자가 작성한 github코드에 관해서 Q,K,V를 모두 하나의 FC layer 를 통과시켜서 만들고 있는데 이것에 관한 내용은 transformer_Xl까지 거슬러 올라가도 나오질 않아서 왜 이렇게 쓰는지 혹시 아실까 해서 댓글 남깁니다 ㅠㅠ

jeonsworld commented 11 months ago

안녕하세요! 제가 이해한바로는 attention 부분에서 q,k,v prjection을 하나의 linear layer만 사용한다고 하신거 같습니다. 혹시 저자코드에서 말씀하신 부분이 multihead_attn 이부분이 맞을까요?

이부분이 맞다면 head_projection 이부분과 같이 확인해보시면 될거같습니다. 여기 코드를 보시면 q,k,v에 해당되는 proj_weight를 사용하여 계산하기때문에 각각 다른 linear layer를 사용한다고 볼 수 있을거같습니다.

해당부분이 아니라면 추가댓글 남겨주세요!

jeonsworld / blog-comment

NLP/xlnet/ #2

XLNet: Generalized Autoregressive Pretraining for Language Understanding | Deep Learner