Closed kyakuno closed 1 year ago
Apacheライセンス。
ailia tokenizerで通常の日本語bertを動かそうとした場合、形態素解析が必要なので、sentence piece版を使用したい。
sentence pieceはvocabを探索するだけでtokenizeできる。 https://github.com/yoheikikuta/bert-japanese/blob/master/src/tokenization_sentencepiece.py
下記のモデルをmodelフォルダにダウンロード。 https://drive.google.com/drive/folders/1Zsm9DD40lrUVu6iAnIuTH2ODIkh-WM-O
実行方法。
git submodule update
cd src
python3 run_pretraining.py
TensorFlow2系だと下記のエラーになる。
module 'tensorflow._api.v2.train' has no attribute 'Optimizer'
mecabをailia.tokenizerに取り込む方針にするため、こちらは対応しないこととした。
BERTをsentence pieceで学習したモデル。 https://github.com/yoheikikuta/bert-japanese https://yoheikikuta.github.io/bert-japanese/