Closed EASTERNTIGER closed 1 year ago
代码里面加就行了,会自动保存到vocab.txt, 示例:
# add custom word
tokenizer.add_tokens([',', '(', ')', '鄄'])
model.resize_token_embeddings(len(tokenizer))
代码里面加就行了,会自动保存到vocab.txt, 示例:
# add custom word tokenizer.add_tokens([',', '(', ')', '鄄']) model.resize_token_embeddings(len(tokenizer))
好的,谢谢。
老师,请问如果是macbert模型,没有办法调整嵌入层大小,报错AttributeError: 'MacBert4Csc' object has no attribute 'resize_token_embeddings',是不是就没法解决了
macbert4csc模型,用bert. resize_token_embeddings(***)
老师您好,我在使用自己的数据训练macbert模型的时候发现,有未出现在vocab.txt中的生僻字,比如“鄄”,我把生僻字添加到vocab.txt中然后上传到../pycorrector/macbert/output/macbert4csc/路径下,但是一旦开始训练模型的时候,就会自动下载原始的vocab.txt,把我上传的vocab.txt替换掉了,又还原成原始默认的vocab了,请问这是不是训练后的模型无法识别自定义数据集中含生僻字的纠错的原因呢?