Closed embed-Rayn closed 4 years ago
제 생각에는 책이 맞는 듯 합니다.
T
: 전체 문장을 이루는 단어토큰 갯수t
: T
개 중 t
번째 단어k
: 예측시 사용할 슬라이싱(?)한 단어 갯수 (n-gram에서 n
역할)
같아요.w_0, w1, ..., w{T-1}이기 때문에, 수식 5-1에서 \Sigma{t=k}^{T-k} ===> \Sigma{t=k}^{T-1}
제 생각에는 이렇게 되어야 할 것 같습니다만...
다시보니 @hccho2 님이 맞는 것 같아요. 책의 예제인 the cat sat on the man을 보면 k = 3, T = 6이고 log P(w_3 | w_2, w_1, w_0)+log P(w_4 | w_3, w_2, w_1)+log P(w_5 | w_4, w_3, w2) 가 되려면 Sigma{t=k}^{T-1}이 맞겠네요
w_0, w1, ..., w{T-1}이기 때문에, 수식 5-1에서 \Sigma{t=k}^{T-k} ===> \Sigma{t=k}^{T-1}
제 생각에는 이렇게 되어야 할 것 같습니다만...
잠깐 햇갈려서
찾아봤는데 구글에서 나온 논문 있네요 https://cs.stanford.edu/~quocle/paragraph_vector.pdf
논문에서는 중심단어의 앞 k개, 뒤 k개를 모델링하는 수식이고, 책에서는 앞 k개를 사용하기 때문에 조금 차이가 있습니다.
@hccho2 넵. 저도 그렇게 이해했습니다.
이렇게 이해가 됐는데 책이 맞나요?