Closed baoyuzeng closed 8 years ago
是否get_idf(list(参数)),这个参数至少为2个,因为为1个时,如,get_idf(list(word1))求出来的count全为0,如果为两个参数,如word1,word2,调用get_idf(list(word1,word2))是不是只是以两个参数为总的文档树计算的idf?
get_idf 的第一个参数是一个 list,list 每一个成员为一个 character vector,代表一个文件,一个 list 可以有很多个 character vector,也就是很多个文件。这个我在之后会在 docs 补充清楚一些。
语料库只有一个文件, 那么那么这个语料库的文件中每一个词的 IDF = log( 语料文件数 / 出现某一个词语的文件数 ) = log(1/1) = log(1) = 0 。
对应源码在这里。
好的,明白了,多谢解答
您好,在调用get_idf函数之后值全为0 ,help之后显示其中调用了get_idf_cpp函数,请问这个函数的源代码是否可以告知?