axinc-ai / ailia-models

The collection of pre-trained, state-of-the-art AI models for ailia SDK
2.05k stars 326 forks source link

ADD bert japanese #1150

Closed kyakuno closed 1 year ago

kyakuno commented 1 year ago

BERTをsentence pieceで学習したモデル。 https://github.com/yoheikikuta/bert-japanese https://yoheikikuta.github.io/bert-japanese/

kyakuno commented 1 year ago

Apacheライセンス。

kyakuno commented 1 year ago

ailia tokenizerで通常の日本語bertを動かそうとした場合、形態素解析が必要なので、sentence piece版を使用したい。

kyakuno commented 1 year ago

sentence pieceはvocabを探索するだけでtokenizeできる。 https://github.com/yoheikikuta/bert-japanese/blob/master/src/tokenization_sentencepiece.py

kyakuno commented 1 year ago

下記のモデルをmodelフォルダにダウンロード。 https://drive.google.com/drive/folders/1Zsm9DD40lrUVu6iAnIuTH2ODIkh-WM-O

kyakuno commented 1 year ago

実行方法。

git submodule update
cd src
python3 run_pretraining.py

TensorFlow2系だと下記のエラーになる。

module 'tensorflow._api.v2.train' has no attribute 'Optimizer'

https://github.com/google-research/bert/issues/1140

kyakuno commented 1 year ago

mecabをailia.tokenizerに取り込む方針にするため、こちらは対応しないこととした。