kiwirafe / xiangsi

中文文本相似度计算器
MIT License
116 stars 21 forks source link

input要求什么格式? #1

Closed xkungfu closed 3 years ago

xkungfu commented 4 years ago

xs.cossim(Input1, Input2) input1,input2不应该是句子1,句子2 么? 比如:xs.cossim("abc", "xyz")

但是在执行时又被看成了文件?

def GetTF(self, input):
     corpus = self.input2list(input) # 在这步要求将input转成list

... 但是在转list时:

def input2list(self, input):
    result = []
    if self.CheckInputType(input) == "f": # 在这步,如果input是字符串,则被当成了文件

请教一下Input1, Input2,要求的是什么格式?

kiwirafe commented 3 years ago

Input1, Input2 为两个Input,均为字符串。具体填为文件的名称(因为会在同一目录下计算TFIDF),当然输入一个列表也行,但没测试过(最好不要使用,好像有Bug)。

详见这里

然后在input2list中,把文件读取并且分词,所以才成为一个list

xkungfu commented 3 years ago

感谢回复。 input定义为文件有点麻烦。这样要比较二个字符串相似度,要先把它们分别存为二个文件。

kiwirafe commented 3 years ago

你说的对,争取在下一个版本中增加这个新Feature暂时先关闭Issue了。

kiwirafe commented 3 years ago

相识3.0.1发布了,在这个版本里,你可以把字符串转为列表,然后计算就可以了。 比如说: xs.cossim("abc", "xyz") 就可以变成: xs.cossim(["abc"], ["xyz"]) 然后结果就是0.0

你还可以增加IDF的运算,如下: xs.cossim(["abc", "wxy"], ["xyz", "bcd"])

更新相识版本: pip install xiangshi --upgrade