[펭귄] (FQ) RNN/LSTM/GRU과 BPTT - Githubissues

boost-devs / peer-session

🚀 부스트캠프 AI Tech 1기 U-Stage 4조 피어 세션 자료/질문 모음 (archived)

8 stars 2 forks source link

[펭귄] (FQ) RNN/LSTM/GRU과 BPTT #68

Closed CoodingPenguin closed 3 years ago

CoodingPenguin commented 3 years ago

❓ 질문 내용

BPTT 이외에 RNN/LSTM/GRU의 구조를 유지하면서 gradient vanishing/exploding 문제를 완화할 수 있는 방법이 있을까요?
RNN/LSTM/GRU 기반의 Language Model에서 초반 time step의 정보를 전달하기 어려운 점을 완화할 수 있는 방법이 있을까요?

📄 참고 자료

DAY 17. LSTM and GRU

CoodingPenguin commented 3 years ago

효과적인 RNN 학습

skip-connection을 쓰는 방법도 있네요.

CoodingPenguin commented 3 years ago

BPTT 이외에 RNN/LSTM/GRU의 구조를 유지하면서 gradient vanishing/exploding 문제를 완화할 수 있는 방법이 있을까요?

skip connection을 활용하여 이전 정보를 넘겨준다.
- https://ratsgo.github.io/deep%20learning/2017/10/10/RNNsty/
RTRL, EKF로 학습을 한다.
- https://pdfs.semanticscholar.org/a109/90aab66ffaf6bfd3fe582c42c93a9e406fa7.pdf
- https://hororolol.tistory.com/194

RNN/LSTM/GRU 기반의 Language Model에서 초반 time step의 정보를 전달하기 어려운 점을 완화할 수 있는 방법이 있을까요?

Teacher Forcing을 이용한다. Techer Forcing이란 입력을 넣어 출력이 나오면 그 출력을 입력으로 넣는 것이 아니라 나온 출력은 버려두고 Ground Truth를 입력으로 넣어주는 방법이다.