Embedding / Chinese-Word-Vectors

100+ Chinese Word Vectors 上百种预训练中文词向量
Apache License 2.0
11.82k stars 2.32k forks source link

词向量文件中词的排列顺序有什么规律么? #63

Open MLjian opened 5 years ago

MLjian commented 5 years ago

你好,我现在正在使用你们的词向量做实验,所以我想问一下, 1)在co-occurence中的Target和context所产生的词向量的文件的词的排列顺序有什么规律?是随机排列的?还是按频数递减进行排列的。 2)关于字向量,你们目前有做这方面的实验或成果么? 谢谢~

shenshen-hungry commented 5 years ago

按频率排的,高频在前。字向量可以在不同的context文件中获取到。

MLjian commented 5 years ago

你好,字向量在Various Domains表格的context features中的word+character文件中获得?按我的理解,Various Domains表格中的所有embedding文件,都是词向量文件。我觉得只有co-occurence表格的character行的文件才能提出了字向量文件啊。 难道我的理解有问题?我想再确认一下。

shenshen-hungry commented 5 years ago

Various Domains里面只有target的embedding,没有context的embedding,所以也没有字向量。

在Various Co-occurrence Information里面target和context的向量都有,所以可以从context向量里面获取到字向量。