Embedding / Chinese-Word-Vectors

100+ Chinese Word Vectors 上百种预训练中文词向量
Apache License 2.0
11.82k stars 2.32k forks source link

增量训练问题 #30

Closed WaaterD closed 6 years ago

WaaterD commented 6 years ago

您好! 用gensim训练时,增量训练只能改变模型的参数,新的词汇并不能添加进模型中,这就导致了没办法使用一些预训练好的模型对具体的任务做微调。所以想请问您在使用ngram2vec的过程中遇到过这个问题么?

shenshen-hungry commented 6 years ago

训练word2vec类似的模型时候实际上模型里面有两组参数:中心词向量,上下文向量。通常我们用的都是中心词向量,但是训练的时候二者都需要的,这样在训练的时候先得找到上下文向量,这个项目中对二者都有提供,可以参考项目中的Various Co-occurrence Information。 至于对词汇表的修改,目前没有看到公开的实现,之前尝试过修改fasttext代码,似乎是最简单可以实现的,你可以试试。

实际上,微调(fine tune)更多是在训练下游任务的时候调整,具体是用预训练的词向量初始化embedding table里面的参数,之后一并训练,这样的效果一般来说是最好的,特别是采用Deep Learning的时候。