다름이 아니라 "멀티 헤드"에관한 로직에대해서 조금 헷갈리는 부분이 있어서 질문을 올리게 되었습니다.
한 번의 attention 결과물을 하나의 헤드로 보기 때문에 아래와 같은 식으로 나오게 되고
head_i = attention(q,k,v, mask)
이와 같은 head를 여러번 계산해서 복수의 head를 concat을 해서 사용한다고해서 multi-head라고 부르는 걸로 알고있습니다.
5-33에서 사용된 attention_layer 코드 안을 보면 이미 그 안에서 multi_head attention을 하고 있는거 같습니다.
multi_head_attn_output_i = attention(q,k,v, mask)
제가 생각하기에 책에 설명된 로직을 표현한다고 하면 attention_layer는 굳이 표현을 하자면 1-head attention을 수행 해야하지 않을까 생각이 들었습니다.
안녕하세요? 좋은책 내주셔서 감사합니다.
다름이 아니라 "멀티 헤드"에관한 로직에대해서 조금 헷갈리는 부분이 있어서 질문을 올리게 되었습니다. 한 번의 attention 결과물을 하나의 헤드로 보기 때문에 아래와 같은 식으로 나오게 되고
head_i = attention(q,k,v, mask)
이와 같은 head를 여러번 계산해서 복수의 head를 concat을 해서 사용한다고해서 multi-head라고 부르는 걸로 알고있습니다.5-33에서 사용된
attention_layer
코드 안을 보면 이미 그 안에서 multi_head attention을 하고 있는거 같습니다.multi_head_attn_output_i = attention(q,k,v, mask)
제가 생각하기에 책에 설명된 로직을 표현한다고 하면
attention_layer
는 굳이 표현을 하자면 1-head attention을 수행 해야하지 않을까 생각이 들었습니다.