issues
search
Atsuhiko
/
AAMLP
0
stars
3
forks
source link
第9回 自然言語処理
#14
Open
yuyuyuriko78
opened
3 years ago
yuyuyuriko78
commented
3 years ago
2021-01-23
tags:
AAMLP
先生:張さん
単語の個数
文章が長くなるほど特徴量が膨大になり、時間がかかる
areやtheなどは、重要でないのに出現回数がどうしても多くなる
スパースモデル: 0が多いデータ
ナイーブベイズが有効
単語ベクトル
特徴量としての単語を、ワンホットエンコーディングで座標にしたもの
tfidf法
重要な単語には重みをつけて考えてみようという方法
tf: 単語の出現頻度
ここは前半の個数のやつと近い
idf: その単語がどれだけレアなのか
あんまり出てこないけど重要な単語をキャッチする
Nグラム法
複数の単語の集まりで切る方法
例: I am very happy.
→ [I, am, very],[am, very, happy]
文脈も考慮することができる
スティーミング、レマティゼーション
単語の変形に対応
複数形、過去形、現在進行系、3単元のSなど
トピック抽出
重要な単語を引っ張ってくる
the、カンマ、ピリオド等意味のない単語(ストップワード、頻出ワード)を抜いてから行ったほうが良い
word2vec
単語動詞の関係性をベクトルで表す
すでにたくさんのライブラリが存在するので、それを利用する
ゲンシム など
古典的な方法よりも精度が良いというわけではない
LSTM, RNN
時系列データを扱うのに良い
RNN
入力データは、出力されるのと同時に、次の層に渡される
次の層では、前の層の入力データと、今の層の入力データをinputとして使用する
デメリット:一番古い情報をどんどん忘れていくので、最初似重要なものが来ると精度が下がる
LSTM
基本構造はRNNと一緒。
「単語の重要度」を組み込んだモデル。
その単語をどれくらいの割合で受け渡すか
2021-01-23
tags:
AAMLP
単語の個数
tfidf法
Nグラム法
スティーミング、レマティゼーション
トピック抽出
word2vec
LSTM, RNN
RNN
LSTM