Closed DusanBaek closed 2 years ago
네 말씀하신게 맞습니다. 부족한 책이고 출판된지 오래됐는데 이렇게 관심 가져주셔서 진심으로 고맙습니다. 해당 내용은 이 다음 판이나 전면개정(언젠가는 하려고 계획 중입니다^^;)에 반드시 반영하겠습니다.
네 말씀하신게 맞습니다. 부족한 책이고 출판된지 오래됐는데 이렇게 관심 가져주셔서 진심으로 고맙습니다. 해당 내용은 이 다음 판이나 전면개정(언젠가는 하려고 계획 중입니다^^;)에 반드시 반영하겠습니다.
전혀 부족하지 않습니다 ㅠㅠ.. 과분한 책입니다. 빠른 피드백 감사드립니다. 더불어, 블로그 또한 잘 보고 있습니다. 복 받으세요 ~! ^^;
p.223 5.5.2 멀티헤드 어텐션 설명에서 멀티헤드 어텐션의 계산 과정을 설명하는 부분에서, "5.5.1에서 미리 만들어놓은 쿼리(Q), 키(K), 값(V)에 Scaled Dot-Product를 h번 수행한다" 라고 표기되어 있습니다. 제가 틀렸을 수도 있지만, 제가 이해한 바로는 Q,K,V를 만들기 위해서는 입력 X에 가중치 Wq, Wk, Wv를 곱해야하고, 멀티헤드 어텐션에서는 가중치 Wq, Wk, Wv가 헤드마다 다른것으로 이해했습니다. 따라서, 설명에서 Q, K, V가 미리 만들어진 것을 활용한다고 하면 안되고, 헤드마다 각기 다른 Wq, Wk, Wv를 동일한 입력 X와 곱해서 얻어낸다 라고 변경해야 할 것 같습니다. 그림 5-23과 비슷하지만 약간 수정된 그림 link 첨부드립니다.