Open bihui9968 opened 5 years ago
在做自动问答的时候,遇到了语义相似度的问题。如何根据用户输入的文本,计算输入的文本和问答库中所有问题的相似度,从而找到用户想问的问题,输出该问题对应的ID下的标准答案。
机器学习+深度学习 大的框架还是机器学习框架,在此框架中融合了NLP特征和深度学习特征。 机器学习特征如下: 1.两个语句的长度差。 2.两个语句的编辑距离。 3.两个语句的n-gram的相似性特征。 4.两个语句的词的词频统计特征。 5.两个语句的疑问词的相似度。 6.两个语句的词向量组合的相似度。 7.两个语句神经网络编码的曼哈顿距离相似度和余弦相似度。 8.两个语句神经网络编码的match-vector形式计算相似度。 9.两个语句的神经网络编码的改进的Compare-Aggregate模型的相似度。
1.模型融合 2.语料叠加 3.对垂直领域挖掘主题相关特征
7.两个语句神经网络编码的曼哈顿距离和余弦相似度。 主要是通过LSTM训练语句的词向量模型,然后在输出层计算两个语句的语义向量的曼哈顿距离和余弦相似度,作为分类模型的特征。
8.两个语句神经网络编码的match-vector形式计算相似度。 在7的基础上增加了语义向量的点乘后的向量和语义向量做减法后的向量然后再计算相似度距离。
9.加入了attention机制
语义相似度问题的解决方案
在做自动问答的时候,遇到了语义相似度的问题。如何根据用户输入的文本,计算输入的文本和问答库中所有问题的相似度,从而找到用户想问的问题,输出该问题对应的ID下的标准答案。
总体建模
机器学习+深度学习 大的框架还是机器学习框架,在此框架中融合了NLP特征和深度学习特征。 机器学习特征如下: 1.两个语句的长度差。 2.两个语句的编辑距离。 3.两个语句的n-gram的相似性特征。 4.两个语句的词的词频统计特征。 5.两个语句的疑问词的相似度。 6.两个语句的词向量组合的相似度。 7.两个语句神经网络编码的曼哈顿距离相似度和余弦相似度。 8.两个语句神经网络编码的match-vector形式计算相似度。 9.两个语句的神经网络编码的改进的Compare-Aggregate模型的相似度。
trick
1.模型融合 2.语料叠加 3.对垂直领域挖掘主题相关特征
复杂特征解释
7.两个语句神经网络编码的曼哈顿距离和余弦相似度。 主要是通过LSTM训练语句的词向量模型,然后在输出层计算两个语句的语义向量的曼哈顿距离和余弦相似度,作为分类模型的特征。
8.两个语句神经网络编码的match-vector形式计算相似度。 在7的基础上增加了语义向量的点乘后的向量和语义向量做减法后的向量然后再计算相似度距离。
9.加入了attention机制