스터디:LSTM:Introduction

NLP의 역사 속에서 lstm은 어디에?

최근들에 정말 급격하게 발전해온 필드가 자연어처리.

자연어처리 분야는 그동안 어떻게 발전해왔고, lstm은 그 역사 속에서 어떤 문제를 해결하기위해 만들어지게 되었는지 알아보자.

숲을 보고 들어가자.

NLP의 역사 속에서 LSTM

credit: https://mobile.twitter.com/wzuidema/status/1212727352037429248

추가: 1997년

LSTM에 대한 이론적 바탕.

https://www.bioinf.jku.at/publications/older/2604.pdf

shock1 (2010)

RNN의 등장, NLP에 신경망이 유용하게 쓰일 수 있을 것 같다.

[1] Tomáš Mikolov et al: Interspeech 2010, https://www.fit.vutbr.cz/research/groups/speech/publi/2010/mikolov_interspeech2010_IS100722.pdf [2] Socher, Richard, Christopher D. Manning, and Andrew Y. Ng.: Learning continuous phrase representations and syntactic parsing with recursive neural networks. https://t.co/mKq6FdNgt4?amp=1

shock2(2013)

RNN의 gradient vanishing & gradient exploding 문제를 해결한 LSTM의 등장.

[3] Alex Graves, Generating Sequences With Recurrent Neural Networks https://arxiv.org/abs/1308.0850 @DeepMindAI

shock3(2013)

distributional semantics는 잊고, 이제는 word2vec를 써서 단어의 벡터 임베딩을 표현하자.

[4] T Mikolov, I Sutskever, K Chen, GS Corrado, J Dean. Distributed representations of words and phrases and their compositionality https://arxiv.org/abs/1310.4546 @JeffDean

shock4(2014)

phrase-based translation은 잊고, seq2seq를 배우자.

LSTM을 더 간단하게 하지만 성능은 높인다: GRU's.

[5] Cho, Kyunghyun et al.: Learning Phrase Representations ... https://arxiv.org/abs/1406.1078 @kchonyc

shock5(2014)

seq2seq를 기억하는가? 거기에 attention을 얹어보자.

[6] Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio: Neural Machine Translation by Jointly Learning to Align and Translate https://arxiv.org/abs/1409.0473 @kchonyc@MILAMontreal

shock6(2014)

갑자기 떠오르기 시작한 딥러닝. speech recognition 필드에서도, SOTA를 찍기 시작하다. (무려 end-to-end로!)

[7] Awni Hannun et al. : Deep Speech: Scaling up end-to-end speech recognition https://arxiv.org/abs/1412.5567

shock7(2015)

RNN도 로직을 배울 수 있다.

[8] Bowman, Potts & Manning: https://arxiv.org/abs/1406.1827 @sleepinyourhat @ChrisGPotts

LSTM을 기반으로한 parser도 SOTA를 찍기 시작하다.

[9] Eliyahu Kiperwasser, Yoav Goldberg (2016): Simple and Accurate Dependency Parsing Using Bidirectional LSTM Feature Representations https://aclweb.org/anthology/Q16-1023/… @elikiper@yoavgo

shock8(2016)

기계 번역도 신경망이 장악하다. (구글 번역도 신경망으로)

[10] R Sennrich, B Haddow, A Birch, Edinburgh Neural Machine Translation Systems for WMT 16 https://aclweb.org/anthology/W16-2323.pdf @alexandrabirch1@RicoSennrich

shock9(2017)

LSTM을 기억하는가? 좋다, 이제 LSTM은 잊어라, 대신 "Attention is all you need"

[11] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin https://arxiv.org/abs/1706.0376

shock10(2018)

단어를 임베딩하기위해 wrod2vec을 사용했었다. 이제는 문맥적인 상황까지 고려해서 임베딩을 할 수 있다:

ELMO
BERT

[12] Peters, Neumann, Iyyer, Gardner, Clark, Lee, & Zettlemoyer : Deep contextualized word representations: https://arxiv.org/abs/1802.05365 @nlpmattg

shock11? (2020)

gpt-3의 등장. Language models are Few-shot learners.

eubinecto / k4ji_ai