thunlp / SE-WRL-SAT

Revised Version of SAT Model in "Improved Word Representation Learning with Sememes"
MIT License
50 stars 8 forks source link

如何训练 #3

Closed findhomebythesea closed 5 years ago

findhomebythesea commented 5 years ago

您好! 我想自己尝试使用一下您提供的数据集训练一下您的模型,我看到训练集一共有俩SogouT1.txt和SogouT2.txt,但是训练的时候命令中-train data/train_sample.txt,文件只有一个。 我该怎么去替换命令?是-train data/SogouT1.txt data/SogouT2.txt ? 还是将SogouT2.txt复制到SogouT1.txt中变成一个文件去训练? 请求指导!

Fanchao-Qi commented 5 years ago

你好,在原repo中上传的训练数据是因为文件过大所以被切分成了两部分,按理来说这两个压缩包文件下载到同一目录下后解压会将两个压缩包内文件自动合成1个文件。如果没有自动合成可能需要手动合成一个大文件,约20个G。 当然,也可以只用一个训练文件训练。不过报告的实验结果是用20G的语料训练出来的。

embraceth commented 5 years ago

我解压您提供的SogouT1.txt和SougouT2.txt,并将SogouT2.txt追加到SogouT1.txt的结尾,然后使用您提供的最新的代码以及评测代码,参数也都一样,训练出的模型以及评测跟您的不一样这是为什么?是我合并训练文本的方式不对吗?是将SogouT1.txt追加到SogouT2.txt的结尾吗? 不一样是指每个词的词向量都不一样,我打开了您训练的文件和我训练的文件对照了一下。

Fanchao-Qi commented 5 years ago

词向量每次都是随机初始化的,因此就算用同样的语料运行两次,两次得到的词向量也都会不同。只需要看一下词相似度结果是否相差不多就可以。