Closed antasis9 closed 3 weeks ago
안녕하세요. 허정준입니다. 오류 제보해주셔서 감사합니다.
말씀해주신대로 self_attn 메서드에서 is_causal=is_causal 을 추가해주는 게 맞습니다. 코드에서 크로스 어텐션 부분에서는 인코더의 모든 정보를 활용할 수 있기 때문에 is_causal 인자 값을 삭제하는 게 맞습니다.
요약하면,
혼동을 드려 죄송하고 혹시 더 문의 사항이 있다면 말씀 부탁드립니다. 감사합니다~!
상세한 답변 감사드립니다.
크로스 어텐션에서 인코더의 모든 정보를 활용할 수 있다는 의미에 대해서 제가 이해하고 있는 부분이 맞는지 질문 드립니다. (즉, 크로스 어텐션에서 is_causal이 False로 들어간다는 것의 의미)
==================== 번역의 경우를 생각해보면 encoder - decoder가 모두 동작하게 되고, decoder는 encoder가 생성한 output을 모두 사용할 수 있다. 이 의미는 encoder output은 번역 전의 문장을 가공한 데이터이므로 decoder가 모두 참고해도 괜찮다. (답이 아니고 번역해야할 대상이므로)
네 말씀해주신 설명이 정확합니다~!
감사합니다 :)
네 답변 감사 드립니다 제가 아직 모르는 부분이 많아 질문이 생기면 다시 방문 드리겠습니다
안녕하세요.
2장 내용 중 디코더 층에서 질문이 있습니다.
위 빨간 네모 부분이 마스크 멀티 헤드 어텐션이 수행되는 부분으로 보이는데, is_causal이 파라미터로 전달되지 않는 것 같아 문의 드립니다.
학습 (Training) 시에 tgt가 전체 문장이 주어지지 않아서 다음 토큰을 엿볼 수 없으므로 is_causal이 없어도 괜찮은 상황인지요? (제가 학습 부분까진 정확히 이해하지 못해 예측해서 말씀드리는 부분으로 틀릴 수 있습니다.)
확인해주시면 감사드리겠습니다.