Closed kimcando closed 2 years ago
(개인적으로 이해한 내용을 바탕으로 썼습니다. 사실이 아닐수도 있다는 점을 유의해주시고 참고만 ㅠㅠ) 먼저 논문 469 페이지 2번째 단락에 Param 개수에 대한 수식이 나옵니다.
n-gram Model은 Vocabulary의 원소 개수가 V일 때 총 V^n - 1 (Independent) Parmaeter 개수를 가진다고 말하고 있습니다. V는 항상 양수이므로, n이 커지면 자명하게 Parameter 개수가 커질 것이며, 이는 파라미터의 증가(=모델 사이즈가 커짐)를 가지고 옵니다.
이전 (n-1)개의 단어를 확인하는 과정을 고려하지 않아 헷갈리셨다고 생각합니다. (1,2,3)을 검사할 때는 1,2에 대한 연산 Parameter만 필요하지만 (1,2,3,4,5)를 검사할 때는 1,2,3,4에 대한 연산 Parameter가 필요하기 때문에 한 번 연산이 수행될 때 더 많은 parameter 개수가 필요하게 될 것입니다. (2, (1,2) 활용한 2번 계산, 4, (4,3), (4,3,2), (4,3,2,1) 활용한 4번 계산)
자세한 수식 유도는 논문에서 읽어보시는 것을 추천드리고, 간단히 말하자면 (1, 2, ... , V)에 대하여 n-gram일 경우 (1,2,3,...,n)에 대한 예측 연산이 수행되어야 할 것입니다. 즉, 각 위치에 올 수 있는 단어의 개수는 총 V이므로 V^n 경우의 수를 확인해 봐야하고, 이만큼의 Parameter 개수가 필요하다고 생각하시면 편할 것 같습니다 (1을 빼준 이유 : one for each word minus one for the constraint that all of the probabilities add up to 1)
정확히는, n-gram일 때 (1,2,...,n)에서 (n - 1)개 단어를 통한 예측을 위해 필요한 Parameter는 총 V^(n-1)*(V-1)개이고, (n-1) gram ( 1 ~ (n-2)개 단어를 통해 단어를 예측한 경우의 수를 모두 합한 것 )은 V^(n-1) -1이기 때문에, 1 ~ (n-1)개 단어를 위해 필요한 Parameter 개수는 V^(n-1)(V-1) + V^(n-1) - 1 = V^n - 1로 유도되기는 하는데, 이는 논문을 통해 이해하시는 것을 추천드립니다
헐ㅋㅋㅋ역시 수학과..!!!!
word sequence가 길어질 수록 추정해야하는 파라미터가 늘어야하는 것이 잘 안와닿음. 어차피 count 로 치환해서 계산하는거면 그게 왜 늘어나는거지? 여기에서도 비슷하게 설명하는데 정확하게 와닿지는 않음.