ZhuiyiTechnology / WoBERT

以词为基本单位的中文BERT
Apache License 2.0
455 stars 69 forks source link

请问如何增加/修改词表vocab.txt #2

Open Crescentz opened 3 years ago

Crescentz commented 3 years ago

bert的中文vocab.txt的汉字太少了,请问垂直领域遇到这样情况是怎么增加自己的token呢, 【unused】不够用

ZhuiyiTechnology commented 3 years ago

1、把它们加入到vocab.txt里边 2、通过compound_tokens参数追加。

以上只适合bert4keras,可以仔细琢磨一下训练脚本中追加词的方法:https://github.com/ZhuiyiTechnology/WoBERT/blob/master/train.py