Closed kimcando closed 2 years ago
log_2에 대한 이유는 아마 사용된 방식 중 Huffman tree 때문일 거에요. 이게 허프만 코드라는 일종의 정보 표현 방법?에서 따온건데 balanced binary tree일겁니다. balanced binary tree는 tree의 노드 수를 N이라고 할 때 O(log(N)) 시간에 노드를 찾을 수 있어요. 여기서는 N대신 vocabulary size인 V가 사용되는 거 같네요. 논문에서 보시면
In our models, we use hierarchical softmax where the vocabulary is represented as a Huffman binary tree.
가 나오는데, 아마 일종의 vacabulary 탐색과 관련된 것이지 않을까 생각됩니다.
저도 hierarchical softmax가 뭔지 몰랐는데 이미 질문을 올려주셨더군요 😄
링크 에서 나연님이 올려주신 답을 보시면 완전 이진 트리의 성격을 갖고 있습니다!
complexity 관련해서 좀더 찾아봐야할듯
일단 N에 대해서 설명하는 문구 이해가 정확히 안됐음(section2.1) 무슨 given time에? 그리고 active 된다는 것? N개의 sequence만 모델에 넣어주고 그때 그 단어만 학습되는 것을 이렇게 표현한건가?
계산이나 dominant하다는 이유를 정확하게 이해 못하겠음.
Q = (NxD) + (NxDxH) + (HxV)
허프만, hierarchical softmax 개념도 낯설다
RNNLM :
CBOW : 히든 레이어 빠지고 output layer sharing
Skip-gram