issues
search
tomishima2904
/
explore_conceptnet
0
stars
0
forks
source link
wikipediaからの文抽出方法を修正
#12
Closed
tomishima2904
closed
1 year ago
tomishima2904
commented
1 year ago
やったこと
今までは句点
。
を単純に
\n
に置換していたが、「」内の句点は無視するようにした
文長が200を超えるものは文抽出用コーパスに含めないようにした(このおかげで文抽出時間が大幅に削減)
結果的に文抽出用のコーパスは全部で
41,234,871
文から構成されている
やったこと
。
を単純に\n
に置換していたが、「」内の句点は無視するようにした41,234,871
文から構成されている