各品詞の出現頻度の算出

scriptchildren / lab_product

related lab

0 stars 0 forks source link

Open scriptchildren opened 2 years ago

scriptchildren commented 2 years ago

やっていき

scriptchildren commented 2 years ago

タプル型のtoken化したものを別の配列に入れてkey,valueでそれを数えた。次は品詞情報だけを取得してその頻度を数える

scriptchildren commented 2 years ago

stopwordsごと排除する実装したら主語とかそこらへんも弾かれたので、!?()[],.等々記号だけ弾くように書き換えた前処理は終わったので、これから集計するコード書く

scriptchildren commented 2 years ago

頻度を算出できた。しかし、大きさに並んでない上に表記がイニシャルだけ(e.g 'VBN'だったら'V'など)なので、そこの細かいとこどうにかする

scriptchildren commented 2 years ago

%で表記する方針にした。しかし、多く含まれるほど割合が低く設定されているのでそこを修正かける

scriptchildren commented 2 years ago

修正をかけ次第、各品詞の頻度をヒストグラムで表現する

scriptchildren commented 2 years ago

scriptchildren commented 2 years ago

出力してデータを表示させるところまでやった。次の課題としては