Embedding / Chinese-Word-Vectors

100+ Chinese Word Vectors 上百种预训练中文词向量
Apache License 2.0
11.82k stars 2.32k forks source link

如何使用这些模型呢? #45

Closed cooljacket closed 6 years ago

cooljacket commented 6 years ago

作为一个NLP小白,看完README还是不知道该怎么用这些训练好的东西。

可否提供一个说明:

  1. 这些模型是什么含义,格式如何,如何读取?
  2. 提供一些可以运行的示例代码,包含加载模型,词转向量;
  3. 这么多模型,在做应用时,该如何作选择?
shenshen-hungry commented 6 years ago

这个问题说来就话长了。建议你看一下Y. Goldberg的A Primer on Neural Network Models for Natural Language Processing

lixuan1 commented 5 years ago

作为一个NLP小白,看完README还是不知道该怎么用这些训练好的东西。

可否提供一个说明:

  1. 这些模型是什么含义,格式如何,如何读取?
  2. 提供一些可以运行的示例代码,包含加载模型,词转向量;
  3. 这么多模型,在做应用时,该如何作选择?

你好,你最终搞明白这个怎么使用了嘛?我也是想试下预训练好的词向量,但没用过有点迷,谢谢🙏

skriser commented 5 years ago

使用模型看这个https://github.com/Embedding/Chinese-Word-Vectors/issues/3

Ppaddington commented 4 years ago

请问如何使用sgns.target.word-ngram.1-2.dynwin5.thr10.neg5.dim300.iter5这种文件呀? 这种iter5文件是什么东西? 自己看了#3的一些回答,还是一头雾水,可以提供如何使用模型的示例代码吗?谢谢!

ziliangok commented 3 years ago

请问如何使用sgns.target.word-ngram.1-2.dynwin5.thr10.neg5.dim300.iter5这种文件呀? 这种iter5文件是什么东西? 自己看了#3的一些回答,还是一头雾水,可以提供如何使用模型的示例代码吗?谢谢!

with bz2.open(f'/xxx/sgns.target.word-word.dynwin5.thr10.neg5.dim300.iter5.bz2', mode='rb') as f:
        word_vecs = f.readlines()
word_vecs = [i.decode('utf-8') for i in word_vecs]

第一行是元数据,记录了文件长度和向量长度。 这个每一行是一个长字符串: word_vecs[2] '。 -0.114365 0.122019 0.028330 -0.154405 -0.082406 0.006950 0.244836 -0.022653 0.054961 0.083837 -0.124509 -0.020202 0.225958 0.073275 -0.119383 -0.009769 -0.109966 0.126226 -0.050557 0.071971 0.125425 -0.194978 -0.087468 -0.210904 -0.253794 0.272352 0.077864 0.132150 0.052836 -0.033375 -0.040572 -0.185757 -0.162437 -0.011026 -0.069384 -0.051264 -0.054722 0.006327 0.098569 -0.101593 0.146099 0.063027 -0.079797 -0.207214 0.167566 -0.110669 0.041188 -0.131455 0.030900 -0.098480 0.297080 -0.074289 -0.058574 -0.045986 -0.067652 -0.039158 -0.070145 -0.019326 -0.201515 -0.072990 0.122455 0.043708 -0.029868 0.053288 0.011829 -0.106239 0.014581 0.095562 -0.184938 0.044542 -0.310307 -0.016505 0.135909 -0.127191 0.197215 -0.149586 -0.025520 0.117701 -0.011428 -0.197481 0.097762 -0.025431 -0.164756 0.096924 -0.047540 0.114459 -0.151242 0.134405 -0.135813 -0.226506 0.060476 -0.069083 -0.054344 -0.156373 -0.055480 -0.067134 -0.388187 -0.068489 0.321033 -0.117394 0.042288 -0.057646 -0.091360 -0.068372 0.169932 -0.172838 0.126903 -0.161305 0.119163 0.419171 -0.002529 0.167016 -0.187612 -0.079557 -0.031828 -0.084735 -0.297036 -0.064673 -0.149450 0.011352 -0.132555 0.098269 0.064695 -0.041106 0.096642 -0.027683 0.061721 0.168324 0.112802 0.175981 0.041488 -0.020347 -0.146387 0.042113 0.162911 0.057273 -0.075095 0.041463 0.081015 -0.057071 -0.029709 -0.150371 -0.028554 -0.016504 -0.244163 0.153869 0.229289 -0.091048 -0.080774 0.138653 -0.109443 0.228959 -0.046632 0.096475 -0.027365 -0.032173 -0.044187 0.018416 0.072340 -0.044745 -0.328880 0.007316 -0.044325 -0.006206 -0.183415 0.033983 0.117594 0.107404 0.062854 0.030380 0.244514 -0.010033 -0.049033 -0.114234 0.200898 -0.009388 0.105121 0.000041 -0.006056 0.022211 0.001507 -0.003979 -0.166377 0.063544 0.117205 -0.009292 -0.117458 0.177443 -0.151759 0.179367 0.007158 -0.011563 0.201624 -0.185859 -0.228021 -0.168982 -0.067912 0.022254 0.017199 0.002956 -0.237643 0.173091 0.067473 0.070121 -0.122944 -0.025653 0.114937 -0.006300 0.218278 -0.204975 0.220986 -0.154137 0.003570 -0.278988 -0.018547 -0.057187 -0.144127 -0.011614 0.203019 -0.039667 -0.079438 -0.000665 -0.074490 0.016130 0.093753 0.152570 0.020086 0.045813 -0.185480 -0.212300 0.018037 0.200512 -0.030539 0.046494 0.189321 0.152170 0.174876 -0.211196 -0.099389 0.049074 -0.214498 0.215338 0.009664 -0.017129 -0.314053 -0.089267 -0.199180 -0.030611 -0.050670 -0.135251 -0.020167 -0.220138 0.048496 -0.022833 -0.039102 0.023115 -0.098832 -0.126579 -0.014242 0.012257 -0.046638 0.076218 -0.011540 -0.064163 -0.044354 0.000642 0.247612 0.005325 -0.260361 0.015789 0.201388 0.072724 -0.209301 -0.187138 0.120584 0.270446 -0.039432 -0.118817 -0.016090 -0.046074 -0.033649 -0.197945 -0.115242 -0.271381 0.040619 -0.052232 -0.150357 -0.082893 -0.005905 -0.153000 0.150479 0.037960 0.077362 0.077516 0.042213 0.055036 0.039008 0.110687 0.036073 -0.137635 \n'

你只需要把第一个词作为字典的key, 后面的array作为value进行转换就行了。