Open scriptchildren opened 2 years ago
タプル型のtoken化したものを別の配列に入れてkey,valueでそれを数えた。 次は品詞情報だけを取得してその頻度を数える
stopwordsごと排除する実装したら主語とかそこらへんも弾かれたので、!?()[],.等々記号だけ弾くように書き換えた 前処理は終わったので、これから集計するコード書く
頻度を算出できた。しかし、大きさに並んでない上に表記がイニシャルだけ(e.g 'VBN'だったら'V'など)なので、そこの細かいとこどうにかする
%で表記する方針にした。しかし、多く含まれるほど割合が低く設定されているのでそこを修正かける
修正をかけ次第、各品詞の頻度をヒストグラムで表現する
出力してデータを表示させるところまでやった。次の課題としては
やっていき