Open chullhwan-song opened 6 years ago
여기까지 오니 이상한 - 그렇지만 획기적인 - 발상을 떠올린 사람이 등장했다.
RNN을 시퀀스 데이터에 사용했던 이유가 무엇인가?
이전 스텝의 정보를 사용해서 각 스텝들 사이의 관계를 반영하여 시퀀스를 처리하기 위함이었다.
그런데 자기 주의 메커니즘을 사용하면 마찬가지로 시퀀스 내에서 이전 스텝의 정보를 가져와
결합할 수 있다. 그렇다면 굳이 RNN을 쓸 필요가 있을까? > Transformer(밑의 그림)