Open xiaotaiyangsun opened 3 years ago
您好 输入两个句子,通过下面得方式,获取句子向量,并计算cos值。jieba与lac分词结果不同,但是cos值一样,请说明下原因
ids, _ = tokenizer.encode('保养 老年 金保险 投保 方式') ids = D.to_variable(np.expand_dims(ids, 0)) # insert extra batch dimension pooled, encoded = model(ids) # eager execution
batch
fea1 = pooled.numpy()[0]
ids, _ = tokenizer.encode('保养 老年 金保险 投保 方式')
你好,想问下你的不同的分词方式是以这样的空格隔开的形式输入吗? Ernie模型的tokenizer.encode方法会进行文本的清洗,你以空格形式的分词可能在此处空格字符被处理了,你可以通过不同的输入验证一下encode之后的结果是否一致。
具体每一步的处理流程,可以直接查看tokenizer.endoce里的脚本逻辑。
您好 输入两个句子,通过下面得方式,获取句子向量,并计算cos值。jieba与lac分词结果不同,但是cos值一样,请说明下原因
ids, _ = tokenizer.encode('保养 老年 金保险 投保 方式') ids = D.to_variable(np.expand_dims(ids, 0)) # insert extra
batch
dimension pooled, encoded = model(ids) # eager executionprint(pooled.numpy()) # convert results to numpy
fea1 = pooled.numpy()[0]