nakaotomohiro / kaggle

1 stars 0 forks source link

word2vec #16

Open nakaotomohiro opened 2 years ago

tecchi298 commented 2 years ago

軽く調べた感じ word2vec 1単語をベクトルで表現するのが目的。 ある1単語の周囲で使われている単語達がその1単語の意味を規定しているという考え方がベース。 向いているのは類義語の検索。 ただ、"good"と"bad"みたいな、周囲の単語が似がちな対義語もベクトル値が近くなる傾向にある可能性アリ。

多分名詞の使われ方の傾向分析に使われるから、接続詞や副詞?の分析が重要そうな今回とはこれ単体だと相性悪そう。

Doc2vec word2vecの文章単位ver. これなら 似ている文章探しに使える→PositionとConcluding Statementの確定に使えるかも?

参考 https://qiita.com/naotaka1128/items/2c4551abfd40e43b0146#2-gensim-%E3%81%A7-doc2vec-%E3%81%AE%E3%83%A2%E3%83%87%E3%83%AB%E6%A7%8B%E7%AF%89

nakaotomohiro commented 2 years ago

今回の題材でDoc2vecを使うとしたら、1文毎に文書分類していくイメージ? 100個の文で成り立つエッセイだったら100回discource_typeを予測する、的な感じだろうか

MinoKose commented 2 years ago

word2vecはどちらかというとdoc2vecの基本?みたいな感じで 実際に使えそうなのはdoc2vecになるのかも https://deepage.net/machine_learning/2017/01/08/doc2vec.html 中身は文章類似度算出だから直接的に文章の中身を分割できるわけではないけども 内容はまだ全然わかってないごめん!

tecchi298 commented 2 years ago

仮説: 論文の1文目を除く全ての文章の前に『( ),』を追加して、()の中の接続詞を予測させればいいのでは? (本当はfor exampleとかの2単語も入れさせたいんだけど、複数単語を入れさせる方法はよくわからなかった)

以下調査したこと word2vecのCBOWで単語穴埋めが可能と思われる。 参考: https://masamunetogetoge.com/prenlp これのdoc2vec ver.はpv-dm 参考(doc2vec): https://qiita.com/g-k/items/5ea94c13281f675302ca

今後調査したいこと pv-dmの実用例(結構探したけど見つからぬ)