tomishima2904 / explore_conceptnet

0 stars 0 forks source link

抽出した文をさらにトークナイズしてフィルタリング #17

Closed tomishima2904 closed 1 year ago

tomishima2904 commented 1 year ago

上記の問題に対し、以下のように対処する

tomishima2904 commented 1 year ago

Juman++で形態素解析してフィルタリングした結果は以下の通り

# 全データ (処理前)
count  184385.000000
mean     1073.210158
std      7393.743082
min         1.000000
25%         5.000000
50%        27.000000
75%       174.000000
max    199501.000000

# 全データ (処理後)
count  184385.000000
mean      379.969195
std      2805.228658
min         0.000000
25%         4.000000
50%        17.000000
75%       101.000000
max    180161.000000

# 抽出文が1以上であるデータ
count  177874.000000
mean      393.877801
std      2855.150380
min         1.000000
25%         4.000000
50%        19.000000
75%       109.000000
max    180161.000000