Open YutaroOgawa opened 5 years ago
19年8月28日現在、復帰しているので、Issueを閉じます
Wikipedia Entity Vectorsは現在ではGitHubで公開されているようです。 https://github.com/singletongue/WikiEntVec/
以下のページから、最新(といっても20190520)版訓練済みベクトルデータを入手できます。 https://github.com/singletongue/WikiEntVec/releases
どれを落とすかですが、私は jawiki.entity_vectors.300d.txt.bz2 を使いました。これを解凍して jawiki.entity_vectors.300d.txt として、data/ の下に置きました。
テキスト形式しか公開されていませんので、7-4_vectorize.ipynb の word2vec の節のコードを以下のように変えました。
model = KeyedVectors.load_word2vec_format( './data/entity_vector/entity_vector.model.bin', binary=True) → model = KeyedVectors.load_word2vec_format('./data/jawiki.entity_vectors.300d.txt')
それと、使用した gemsim のバージョンは 3.8.3 ですが、vw APIが4.0から廃止されるということで、すでに提供されている新APIに変えています。
model.wv.save_word2vec_format('./data/japanese_word2vec_vectors.vec') → model.save_word2vec_format('./data/japanese_word2vec_vectors.vec')
Windows上ですが、以上の対応でword2vecの節は動いています。
@norihiro-ito さま
本件、問題発見から解決まで誠にありがとうございます。
誤植ラベルをつけて、読者の方が参照しやすいようにし、Issueも再オープンいたします。
非常に丁寧に種々改善をいただき、誠にありがとうございます!
場所:【第7章】make_folders_and_data_downloads.ipynb
の以下のセル。
東北大学 乾・岡崎研究室のサイトが落ちていて、19年8月25日(08:30)現在つながりません。
サイトが復帰するまで待つしかない状況です。
※ http://www.cl.ecei.tohoku.ac.jp/ は2019年3月以前のアーカイブです
※ 2019年3月移行の移動先のhttps://www.nlp.ecei.tohoku.ac.jp/ もつながりませんね。