코드 5-33에서 multi_head에 관한 질문

안녕하세요? 좋은책 내주셔서 감사합니다.

다름이 아니라 "멀티 헤드"에관한 로직에대해서 조금 헷갈리는 부분이 있어서 질문을 올리게 되었습니다. 한 번의 attention 결과물을 하나의 헤드로 보기 때문에 아래와 같은 식으로 나오게 되고 head_i = attention(q,k,v, mask) 이와 같은 head를 여러번 계산해서 복수의 head를 concat을 해서 사용한다고해서 multi-head라고 부르는 걸로 알고있습니다.

5-33에서 사용된 attention_layer 코드 안을 보면 이미 그 안에서 multi_head attention을 하고 있는거 같습니다. multi_head_attn_output_i = attention(q,k,v, mask)

제가 생각하기에 책에 설명된 로직을 표현한다고 하면 attention_layer는 굳이 표현을 하자면 1-head attention을 수행 해야하지 않을까 생각이 들었습니다.

ratsgo / embedding

코드 5-33에서 multi_head에 관한 질문 #60