qinwf / jiebaR

Chinese text segmentation with R. R语言中文分词 (文档已更新 🎉 :https://qinwenfeng.com/jiebaR/ )
Other
342 stars 110 forks source link

get_idf函数中调用的get_idf_cpp函数源代码 #39

Closed baoyuzeng closed 8 years ago

baoyuzeng commented 8 years ago

您好,在调用get_idf函数之后值全为0 ,help之后显示其中调用了get_idf_cpp函数,请问这个函数的源代码是否可以告知?

baoyuzeng commented 8 years ago

是否get_idf(list(参数)),这个参数至少为2个,因为为1个时,如,get_idf(list(word1))求出来的count全为0,如果为两个参数,如word1,word2,调用get_idf(list(word1,word2))是不是只是以两个参数为总的文档树计算的idf?

qinwf commented 8 years ago

get_idf 的第一个参数是一个 list,list 每一个成员为一个 character vector,代表一个文件,一个 list 可以有很多个 character vector,也就是很多个文件。这个我在之后会在 docs 补充清楚一些。

语料库只有一个文件, 那么那么这个语料库的文件中每一个词的 IDF = log( 语料文件数 / 出现某一个词语的文件数 ) = log(1/1) = log(1) = 0 。

对应源码在这里

baoyuzeng commented 8 years ago

好的,明白了,多谢解答