词向量文件中词的排列顺序有什么规律么？

Embedding / Chinese-Word-Vectors

100+ Chinese Word Vectors 上百种预训练中文词向量

Apache License 2.0

11.82k stars 2.32k forks source link

词向量文件中词的排列顺序有什么规律么？ #63

Open MLjian opened 5 years ago

MLjian commented 5 years ago

你好，我现在正在使用你们的词向量做实验，所以我想问一下， 1）在co-occurence中的Target和context所产生的词向量的文件的词的排列顺序有什么规律？是随机排列的？还是按频数递减进行排列的。 2）关于字向量，你们目前有做这方面的实验或成果么？谢谢~

shenshen-hungry commented 5 years ago

按频率排的，高频在前。字向量可以在不同的context文件中获取到。

MLjian commented 5 years ago

你好，字向量在Various Domains表格的context features中的word+character文件中获得？按我的理解，Various Domains表格中的所有embedding文件，都是词向量文件。我觉得只有co-occurence表格的character行的文件才能提出了字向量文件啊。难道我的理解有问题？我想再确认一下。

shenshen-hungry commented 5 years ago

Various Domains里面只有target的embedding，没有context的embedding，所以也没有字向量。

在Various Co-occurrence Information里面target和context的向量都有，所以可以从context向量里面获取到字向量。