tomishima2904 / explore_conceptnet

0 stars 0 forks source link

学習用コーパスの作成 #8

Closed tomishima2904 closed 1 year ago

tomishima2904 commented 1 year ago

目標

source、tail、sourceとtailを含んだ文×3の組みを作成したい

TODO

tomishima2904 commented 1 year ago
tomishima2904 commented 1 year ago

日本語wikipediaデータセットとしては、mecab-ipadic-NEologdでトークナイズされたものを使用する。 この際、##ガスフレア## ( Gas flare ) と は 、のようになっているので、

最終的なコーパスはトークナイズされていないものを用意する。なぜなら、T5やBARTのライブラリにトークナイズもちゃんとあるため。

tomishima2904 commented 1 year ago

正規化はこれが役に立ちそうなのでメモ📝

ConceptNetのentityはイタリアン_コーヒー励起_するのように空白が_(アンダーバー)になっているので、_をなくして間を詰める

tomishima2904 commented 1 year ago

日本語Wikipedia (2022/12/26)

統計量

処理

STAIR Captions

統計量

処理

tomishima2904 commented 1 year ago

などの否定的な関係性がConceptNetにはある。これらはデータセットに含めないことにする。

tomishima2904 commented 1 year ago

とりあえずベースは完成した BART用やBERT用への前処理はまた後でやる