yongqiangning / nlp

记录学习nlp的过程
0 stars 0 forks source link

预训练模型如何下载和加载 #1

Open yongqiangning opened 10 months ago

yongqiangning commented 10 months ago

我最近有个需求, 是客户填写的非标准地址映射到标准的机场名称的需求, 我想用word2vec 技术把客户填写的文本映射到一个向量里, 然后把标准机场名称映射为向量, 然后求相似度, 但是现在遇到了问题, Word2vec.load("path_to_word2vec_model") 这里的预训练模型path_to_word2vec_model 如何下载和加载

yongqiangning commented 10 months ago

现在看来, 预训练词向量是已经训练好的词向量, 相当于提前准备好了一个字典, 通过词汇这个key可以取到预训练好的词向量, 缺点事无法处理词库中没有出现过的词汇, 针对上述机场名称的需求, 很可能机场名称是没有在词汇库里的. 优势也很明显: 预训练词向量实际上是在大规模文本数据上预先训练好的词向量,每个常见词汇都有一个与之关联的现成的词向量。这些词向量是通过在大规模文本语料库上使用词嵌入算法进行训练得到的。这意味着你可以直接使用这些预训练的词向量,而不需要自己再次训练它们。 这些预训练的词向量能够捕捉单词之间的关系。在深度学习中,你可以将这些现成的词向量用于神经网络模型的输入层,以提供更好的文本表示,而无需手动训练词向量。这大大简化了自然语言处理任务的建模和应用过程。

yongqiangning commented 10 months ago

打算用数据清洗加最小编辑距离的方式计算文本相似度, 首先把机场名称标准化成等长度的字符串(不足的用空格替代)