YutaroOgawa / pytorch_advanced

書籍「つくりながら学ぶ! PyTorchによる発展ディープラーニング」の実装コードを配置したリポジトリです
MIT License
838 stars 336 forks source link

【第7章】make_folders_and_data_downloads.ipynb、word2vecの日本語学習済みモデル(東北大学 乾・岡崎研究室)がダウンロードできません #29

Open YutaroOgawa opened 5 years ago

YutaroOgawa commented 5 years ago

場所:【第7章】make_folders_and_data_downloads.ipynb

の以下のセル。

# word2vecの日本語学習済みモデル(東北大学 乾・岡崎研究室)をダウンロード。時間が15分ほどかかります

url = "http://www.cl.ecei.tohoku.ac.jp/~m-suzuki/jawiki_vector/data/20170201.tar.bz2"
save_path = "./data/20170201.tar.bz2"
if not os.path.exists(save_path):
    urllib.request.urlretrieve(url, save_path)

東北大学 乾・岡崎研究室のサイトが落ちていて、19年8月25日(08:30)現在つながりません。

サイトが復帰するまで待つしかない状況です。

※ http://www.cl.ecei.tohoku.ac.jp/ は2019年3月以前のアーカイブです

※ 2019年3月移行の移動先のhttps://www.nlp.ecei.tohoku.ac.jp/ もつながりませんね。

YutaroOgawa commented 5 years ago

19年8月28日現在、復帰しているので、Issueを閉じます

norihiro-ito commented 3 years ago

Wikipedia Entity Vectorsは現在ではGitHubで公開されているようです。 https://github.com/singletongue/WikiEntVec/

以下のページから、最新(といっても20190520)版訓練済みベクトルデータを入手できます。 https://github.com/singletongue/WikiEntVec/releases

どれを落とすかですが、私は jawiki.entity_vectors.300d.txt.bz2 を使いました。これを解凍して jawiki.entity_vectors.300d.txt として、data/ の下に置きました。

テキスト形式しか公開されていませんので、7-4_vectorize.ipynb の word2vec の節のコードを以下のように変えました。

model = KeyedVectors.load_word2vec_format( './data/entity_vector/entity_vector.model.bin', binary=True) → model = KeyedVectors.load_word2vec_format('./data/jawiki.entity_vectors.300d.txt')

それと、使用した gemsim のバージョンは 3.8.3 ですが、vw APIが4.0から廃止されるということで、すでに提供されている新APIに変えています。

model.wv.save_word2vec_format('./data/japanese_word2vec_vectors.vec') → model.save_word2vec_format('./data/japanese_word2vec_vectors.vec')

Windows上ですが、以上の対応でword2vecの節は動いています。

YutaroOgawa commented 3 years ago

@norihiro-ito さま

本件、問題発見から解決まで誠にありがとうございます。

誤植ラベルをつけて、読者の方が参照しやすいようにし、Issueも再オープンいたします。

非常に丁寧に種々改善をいただき、誠にありがとうございます!