Closed eubinecto closed 3 years ago
최근들에 정말 급격하게 발전해온 필드가 자연어처리.
자연어처리 분야는 그동안 어떻게 발전해왔고, lstm은 그 역사 속에서 어떤 문제를 해결하기위해 만들어지게 되었는지 알아보자.
숲을 보고 들어가자.
LSTM에 대한 이론적 바탕.
RNN의 등장, NLP에 신경망이 유용하게 쓰일 수 있을 것 같다.
[1] Tomáš Mikolov et al: Interspeech 2010, https://www.fit.vutbr.cz/research/groups/speech/publi/2010/mikolov_interspeech2010_IS100722.pdf [2] Socher, Richard, Christopher D. Manning, and Andrew Y. Ng.: Learning continuous phrase representations and syntactic parsing with recursive neural networks. https://t.co/mKq6FdNgt4?amp=1
RNN의 gradient vanishing & gradient exploding 문제를 해결한 LSTM의 등장.
[3] Alex Graves, Generating Sequences With Recurrent Neural Networks https://arxiv.org/abs/1308.0850 @DeepMindAI
distributional semantics는 잊고, 이제는 word2vec를 써서 단어의 벡터 임베딩을 표현하자.
[4] T Mikolov, I Sutskever, K Chen, GS Corrado, J Dean. Distributed representations of words and phrases and their compositionality https://arxiv.org/abs/1310.4546 @JeffDean
phrase-based translation은 잊고, seq2seq를 배우자.
LSTM을 더 간단하게 하지만 성능은 높인다: GRU's.
[5] Cho, Kyunghyun et al.: Learning Phrase Representations ... https://arxiv.org/abs/1406.1078 @kchonyc
seq2seq를 기억하는가? 거기에 attention을 얹어보자.
[6] Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio: Neural Machine Translation by Jointly Learning to Align and Translate https://arxiv.org/abs/1409.0473 @kchonyc@MILAMontreal
갑자기 떠오르기 시작한 딥러닝. speech recognition 필드에서도, SOTA를 찍기 시작하다. (무려 end-to-end로!)
[7] Awni Hannun et al. : Deep Speech: Scaling up end-to-end speech recognition https://arxiv.org/abs/1412.5567
RNN도 로직을 배울 수 있다.
[8] Bowman, Potts & Manning: https://arxiv.org/abs/1406.1827 @sleepinyourhat @ChrisGPotts
LSTM을 기반으로한 parser도 SOTA를 찍기 시작하다.
[9] Eliyahu Kiperwasser, Yoav Goldberg (2016): Simple and Accurate Dependency Parsing Using Bidirectional LSTM Feature Representations https://aclweb.org/anthology/Q16-1023/… @elikiper@yoavgo
기계 번역도 신경망이 장악하다. (구글 번역도 신경망으로)
[10] R Sennrich, B Haddow, A Birch, Edinburgh Neural Machine Translation Systems for WMT 16 https://aclweb.org/anthology/W16-2323.pdf @alexandrabirch1@RicoSennrich
LSTM을 기억하는가? 좋다, 이제 LSTM은 잊어라, 대신 "Attention is all you need"
[11] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin https://arxiv.org/abs/1706.0376
단어를 임베딩하기위해 wrod2vec을 사용했었다. 이제는 문맥적인 상황까지 고려해서 임베딩을 할 수 있다:
[12] Peters, Neumann, Iyyer, Gardner, Clark, Lee, & Zettlemoyer : Deep contextualized word representations: https://arxiv.org/abs/1802.05365 @nlpmattg
gpt-3의 등장. Language models are Few-shot learners.
챕터 overview