p.184 수식 5-1 문의

ratsgo / embedding

한국어 임베딩 (Sentence Embeddings Using Korean Corpora)

https://ratsgo.github.io/embedding

MIT License

455 stars 130 forks source link

p.184 수식 5-1 문의 #48

Closed embed-Rayn closed 4 years ago

embed-Rayn commented 4 years ago

이렇게 이해가 됐는데 책이 맞나요?

black7375 commented 4 years ago

제 생각에는 책이 맞는 듯 합니다.

T: 전체 문장을 이루는 단어토큰 갯수
t: T개 중 t번째 단어
k: 예측시 사용할 슬라이싱(?)한 단어 갯수 (n-gram에서 n 역할) 같아요.

hccho2 commented 4 years ago

w_0, w1, ..., w{T-1}이기 때문에, 수식 5-1에서 \Sigma{t=k}^{T-k} ===> \Sigma{t=k}^{T-1}

제 생각에는 이렇게 되어야 할 것 같습니다만...

embed-Rayn commented 4 years ago

다시보니 @hccho2 님이 맞는 것 같아요. 책의 예제인 the cat sat on the man을 보면 k = 3, T = 6이고 log P(w_3 | w_2, w_1, w_0)+log P(w_4 | w_3, w_2, w_1)+log P(w_5 | w_4, w_3, w2) 가 되려면 Sigma{t=k}^{T-1}이 맞겠네요

w_0, w1, ..., w{T-1}이기 때문에, 수식 5-1에서 \Sigma{t=k}^{T-k} ===> \Sigma{t=k}^{T-1}

제 생각에는 이렇게 되어야 할 것 같습니다만...

black7375 commented 4 years ago

잠깐 햇갈려서

찾아봤는데 구글에서 나온 논문 있네요 https://cs.stanford.edu/~quocle/paragraph_vector.pdf

hccho2 commented 4 years ago

논문에서는 중심단어의 앞 k개, 뒤 k개를 모델링하는 수식이고, 책에서는 앞 k개를 사용하기 때문에 조금 차이가 있습니다.

black7375 commented 4 years ago

@hccho2 넵. 저도 그렇게 이해했습니다.

ratsgo commented 4 years ago

@embed-Rayn @hccho2 @black7375 님! 제가 잠시 자리를 비우는 사이에 활발한 토론을 해주셨네요^^; 뒤늦게 말씀드려서 죄송하지만 결론부터 말씀드리면 @hccho2 님 말씀이 맞습니다. @hccho2 님께서 다른 이슈에 이 내용을 이미 지적해주셨는데요. 해당 이슈에도 동일한 답변을 달았습니다. 부족한 책인데 관심 가져주셔서 진심으로 감사드립니다.

해당 내용은 전자책과 정오표에 반영하겠습니다.